哥伦比亚vs英格兰,是惜败还是惜败于?

2018-07-05

A世界杯首场:俄罗斯大败沙特阿拉伯!

B世界杯首场:俄罗斯大败于沙特阿拉伯!

C世界杯1/8决赛精彩绝伦:哥伦比亚惜败英格兰!

D世界杯1/8决赛精彩绝伦:哥伦比亚惜败于英格兰

什么鬼?都是同一个字为何语义完全不同?其实,这就涉及到一个专业领域“自然语言处理(NLP)”。由此可见自然语言的中文语义分析有多难?如果给中文语义分析考试定10分制的话,上面几个示例只能打6分……我们再来看一道8分题:

在乎你的我只在乎我在乎的你是否像在乎你的我在乎你一样在乎在乎你的我。你知道我究竟在乎什么吗?

或许以中文作为母语并使用30年以上的同学都不能正确回答这道题,更不要说歪果仁了,一定是无情地被拍死在沙滩上……

与蜀道难齐肩的自然语言语义理解,用AI能行吗?

诚然,自然语言普遍存在歧义性,因此自然语言的语义理解,也正是NLP目前最难的部分。自然语言处理通常考虑语言自身与结构方面的知识,如词语、句子、段落、篇章等。语言学家通常把对语言的分析和理解分成如下几个主要层次,即词法分析、句法分析、语义分析、篇章分析。当然,随着时代的进步,科技的发展,人类试图用AI去解决自然语言处理的问题,但AI真的可以让语义分析一键秒懂吗?答案是肯定的,可通往一键秒懂的路却如同蜀道之难,需要前期大量的人力、技术投入,经验积累以及反复验证的过程叠加。

中文的“难处”,只有语境能懂

谈到中文语义分析,更不能撇开它的属性去研究。汉语属于汉藏语系,与属于印欧语系的英语等语言有很大的异质性。中文是意合型语言,词语没有变形,语法结构的识别需要以语义为基础,不借助语言形式手段而需借助词语或句子所含意义的逻辑联系来实现它们之间的连接,注重意义上的连贯。汉语除了有限的词缀(如“子”、“儿”等)和助词(的、地、得)外,不存在标明词类的标记。例如,“打”在“钟打了十二下”中是动词,在“一打鸡蛋”中是量词,“打”字本身无任何标记表示词性,其词性只能从语境中才能识别,而且汉语动词本身也没有任何标记表示时态、语态和语气。

同时,自然语言处理存在三个难以跨越的鸿沟:普遍存在的不确定性、语言知识处理的复杂性以及输入的不规范性。

普遍存在的不确定性

即消除歧义,涵盖词法、句法、语用分析中存在的歧义问题。再从词法、句法、语用入手,细分为词法的交叉歧义,组合歧义,真歧义以及新词;句法的结构关系、结构层次,语义组合歧义;语用中,语气不同存在的歧义。

语言知识处理的复杂性

为上下文知识的获取、背景知识获取;再细分为指代现象及指代内容、俗语、谚语等,机器需要获取更多的知识,才能消除歧义。

输入的不规范性

错别字、口语化、语法错误都将影响语义分析的判断。

人类语言承担着人类表达情感、交流思想、传播知识等重要功能,因而自然语言处理也要求机器需要具备强大的灵活性和表达能力,理解语言所需要的知识又是无止境的,消歧之难、语境之难、语言之复杂……可以说自然语言处理是人工智能认知领域的下一个难关,需要悉心钻研、艰苦攻坚。

在中文信息处理领域攻坚克难,我们是专业的

神州泰岳在语言智能特别是智慧语义方面已经进行了10多年的耕耘和积累,是国内最早成立和专注于认知智能、语言智能的专业公司。公司内现有600余人专注于语言智能的产品开发和技术落地,是语义智能方面国内最大也是最专注的公司,擅长于应用和解决方案的落地。2017年,神州泰岳&北京师范大学人工智能联合实验室成立,将中文信息处理领域20多年的研究成果与先进的深度学习等算法及计算能力相结合,稳步实现中文语义分析一键秒懂。