神州泰岳&北京师范大学AI联合实验室论文获得CCL大会最佳论文奖

2018-10-24

10月19日至21日,第17届中国计算语言学大会(CCL 2018)暨第6届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD 2018)在长沙理工大学召开。神州泰岳&北京师范大学人工智能联合实验室论文《Revisiting correlations between intrinsic and extrinsic evaluations of word embeddings》获“NLP-NABD 2018最佳论文奖”。

大会现场

CCL是中国中文信息学会(CIPS)的旗舰会议,着重于中国境内各类语言的计算处理,为研讨和传播计算语言学最新的学术和技术成果提供了高水平的深入交流平台。经过20余年的发展历程,CCL已形成了十分广泛的学术影响,并成为国内自然语言处理领域权威性最高、口碑最好、规模最大的学术会议。

自2014年起,CCL和NLP-NABD开始设立最佳论文奖,对高质量中文和英文稿件分别予以奖励。其中,“CCL最佳论文奖”用于奖励中文信息处理方面的优秀中文论文,“NLP-NABD最佳论文奖”用于奖励大数据环境下自然语言处理方面的优秀英文论文。

获奖论文截图

语言向量可以为神经网络模型提供基本的语义知识及关系,以指导神经网络模型在情感分析、机器翻译、信息抽取等任务中取得好的效果,因而语言向量表示和评测对于中文信息处理技术研发有重要影响。2018年5月,神州泰岳&北京师范大学人工智能联合实验室成员在Github发布了全网最全的中文语言向量资源Chinese Word Vectors及评测数据集CA8,仅两周便在Gihub上获得超过1500星,同时获得多家媒体报道与推荐,相关论文发表于ACL 2018。

本篇获奖论文聚焦中文词向量内外部评测一致性问题,是神州泰岳&北京师范大学人工智能联合实验室在中文语言向量技术及服务研究上产生的又一成果。在前期中文语言向量研究的基础上,该论文进一步探究词向量内外部评测一致性问题。通过对词相似、词类比、命名实体识别、情感分类四个任务效果相关性的讨论,探究不同向量特征对自然语言处理任务的影响,从而为NLP任务中的词向量选择提供科学的参考和依据。

硕士生邱媛媛汇报论文

论文链接: http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-086.pdf

Github项目链接: https://github.com/Embedding/Chinese-Word-Vectors