【学术成果】清华统计x2022ACL:邓柯课题组文章被接收
近日,2022年第60届国际计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)举行,邓柯课题组18级博士研究生潘长在投稿文章被接收。ACL会议始于1962年,由国际计算语言学协会主办,是自然语言处理与计算语言学领域最高级别的学术会议。
潘长在同学的论文入选“主会长文”单元,题为“ TopWORDS-Seg:开放域中文文本领域通过贝叶斯推断同时进行文本切词和词语发现的方法 (TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference)”,文章针对于几十年来计算语言学中的一个关键瓶颈,开放域中文文本处理问题展开论述。称之为瓶颈是因为在开放域这种具有挑战性的场景中,文本分词和词语发现经常相互纠缠,且并无可用的训练数据。尚无现有方法可以在开放域中同时实现有效的文本分词和单词发现。该文章通过提出一种基于贝叶斯推理的名为 TopWORDS-Seg 的新方法来填补这一空白,在没有训练语料库和领域词表的情况下具有很好的表现和解释性。该文章通过维基百科数据用一系列实验研究证明了 TopWORDS-Seg 的优势。潘长在是第一作者,邓柯副教授作为通讯作者与清华大学计算机系科学与技术系的孙茂松教授共同指导了该工作。