AI群英谱丨刘大双:NLP,神州泰岳做的是最难的部分

2018-12-28

刘大双 神州泰岳人工智能研究院首席分析师

刘大双毕业于北京大学概率统计专业,后获得美国Fordham大学工商管理硕士学位。刘大双是IT行业的一名“老兵”,先后从事过技术支持、产品研发、产品管理、咨询服务等工作,其中做项目经理超过15年并获得PMP证书。自2006年起连续10年获得微软全球最有价值专家(MVP)称号。

他说,在近30年的职业生涯中,SAS、微软和神州泰岳是对他影响最大的有三家公司。在美国SAS软件研究所接触到大型应用软件;在微软学到了产品研发和产品管理。2015年,随着人工智能行业的勃兴,他进入了神州泰岳,参与到人工智能业务板块的规划设计和产品研发及推广工作中。

NLP,神州泰岳做的是最难的部分

广义讲,我们平时说的话,看到的文本,都是自然语言。自然语言的机器处理在语音方面已有突破,即语音识别和语音合成。另一方面是对自然语言的理解,不仅要理解每个字、每个词的意义,而且要理解整体语境。刘大双认为,这是NLP目前最难的部分,至少还有很长的路要走。今天业界普遍的做法是从包括互联网在内的各种渠道获得大量语料,人工标注后对模型进行训练。这种方法虽然取得了一定的效果,但是无法保障准确率。

刘大双指出,神州泰岳在人工智能方面专注于中文的语义处理,也就是解决NLP中最难的部分,这是核心中的核心。神州泰岳的独特之处就在于将我国在中文信息处理领域20多年的研究成果概念层次网络(HNC)与今天先进的计算能力和算法相结合,更好地解决了中文歧义性问题。

语义分析,是我们的研究核心

神州泰岳以20多年的中文信息处理研究成果为基础,结合自身在ICT运维管理方面20多年的研发经验,通过与北京师范大学等多家高等院校和研究机构合作,专注于中文语义理解领域,锲而不舍,研发了自成一派的智慧语义认知技术,在金融、公安等领域取得了良好的应用成果。这两个“20多年”的完美结合,开创了中文语义处理的新局面,形成了神州泰岳在人工智能和大数据领域的独特优势。

神州泰岳人工智能技术的核心是什么?特色在哪里?刘大双介绍,我们的核心是语义理解。语义理解为什么是核心呢?因为自然语言处理说到底是要了解语言想表达的意思。机器只有了解了这个意思,才能产生你要的动作。比如,有人说“苹果”,那他是指水果呢,还是手机?再比如,有人说“中国足球谁都赢不了”,又说“中国乒乓球谁都赢不了”,这是完全不同的两个含义。我们要做的就是区别像这样的语义。中文自然语言处理的语义认知是我们的技术核心。

神州泰岳,在智能语义研究领域,我们最强

说到神州泰岳的技术实力,刘大双认为,首先是积累。我们在语义处理方面的技术基础已经积累了20多年。三四年前,人工智能还没有今天这么热,甚至还没有多少人听说神经网络、深度学习等这些名词,我国的中文信息处理技术研究已经超过20年。实际上我们是站在巨人的肩膀上,再结合今天的深度学习等技术手段,提升自然语言处理的效果,进一步把这些技术工程化。

说到自然语言语义分析技术的应用,刘大双认为这正是神州泰岳的一大优势。我们有交付的经验,有丰富的客户资源。产品的应用效果、工程化能力和交付能力也是我们的竞争优势。他说,目前我们的技术和解决方案已经广泛应用于公安和金融等领域。在公安领域,我们的应用涉及到刑侦、情报、治安、指挥等多个场景。在金融领域,除风控外,我们还涉及到对客服数据进行分析,包括投诉分析、工单的分类、潜在客户挖掘等。为了帮助中小企业客户和行业应用开发商应对NLP技术门槛高、人员成本高等问题,我们推出了 “泰岳语义工厂”。语义工厂将为市场提供最专业、最便捷、最经济的中文语义分析服务。

如何用一句话来描述一下神州泰岳人工智能技术?

这句话就是“自成一派的中文信息处理技术专注于中文语义理解”。