AI群英谱丨杨凯程:我们正走在正确的道路上

2018-12-07

走在一条具有自己特色的道路上

杨凯程,北京神州泰岳软件股份有限公司(以下简称“神州泰岳”)董事、副总裁。神州泰岳的人工智能走在国内前列,优势是将大数据处理技术,应用在自然语言的语义分析和理解方面,并取得了较大的突破和进展。杨凯程说,我们正走在正确的道路上,一条具有自己特色的道路上。

让智能语义研究回归语言学传统

杨凯程现在负责的一个项目是“语义工厂”。大家都知道,人工智能就是要让计算机“理解我们说的话”。我们可以通过给每一个字或词编辑一系列向量的方法来让计算机识别人类语言中的字和词。由于人类语言中的字和词的复杂性,这些向量也必然是海量的大数据。同时语言更多的是人类的一种习惯,而不是严格意义上的科学,这样采集到的大数据不同于其他一些具有科学规律和分布的数据,也就是“非结构化的大数据”。处理这种非结构化的大数据,自然也有不同的方法。神州泰岳的方法是,从语言本身提炼出一些规则,把这些非结构化的数据纳入到模型中。

许嘉璐、黄曾阳等前辈的加持让我们信心满满

从语言本身提炼出一些规则,就要用到中国传统文化中的许多东西,如训诂学。几千年来,我们的祖先对中文语言本身的研究,为我们今天的自然语言处理技术积累了丰富的素材,也奠定了基础,但要把这些转化为现实的可操作的方法还需要艰苦的努力。概念层次网络理论(HNC)是我国中文信息处理的重要流派,其创始人黄曾阳先生是中国科学院声学研究所语言语音及交互信息技术部首席研究员,黄先生本人就是训诂学专家,具有深厚的国学功底,HNC所构建的NLP理论框架在中文信息处理行业内具有举足轻重的地位。神州泰岳的人工智能技术正是以黄先生的HNC理论作为理论基础,深度结合当下流行的迁移学习、增强学习、深度学习等多种先进技术而发展起来的,并正在探索一种产学研一体化的新模式。

最让杨凯程感动的是许嘉璐先生对神州泰岳的支持。许先生是国家领导人,著名的语言学家,也是章黄学派的传人,北师大中文信息处理研究所的创办人。十几年来,他一直在推动中文自然语言的数字化。在神州泰岳和北师大自然语言所共同召开的学术研究会上,许先生虽然年事已高,身体多病,但他不顾医生只能发言十分钟的劝告,一口气讲了一个多小时。杨凯程说,有许多老一辈专家的支持,使我们感到信心满满,同时也感到身上的担子很重。

泰岳“语义工厂” 中国人要用上自己的语言处理技术

说起神州泰岳的人工智能技术的发展,可以说是水到渠成。早在2009年公司上市的时候,公司高层就在寻找探索新的业务方向和增长点。经过反复的探索和实践,最后确定将自然语言处理技术为核心的人工智能做为发展方向,以2016年收购鼎富公司为标志,神州泰岳的人工智能业务开始走向成熟,形成了自己的体系,可以说走出了一条有特色的自主之路。

杨凯程和他团队的做法是:以行业应用和市场需求为导向,将非结构化大数据处理技术,应用于自然语言处理,整合各行业的需求和行业规则,进而建立语言的处理模型,就好像一个工厂一样,依据客户的需求来生产,把各行各业的需求收集起来,为各行各业建模。这就是杨凯程和他的团队正在做的工作,并把它定义为“语义工厂”。杨凯程谈到:如果我们能把大部分行业的模型都建造完毕,我们就成了规模化的中文语义处理平台。虽然这需要很高的成本和很长的时间,并要付出艰苦的努力,但让中国人用上自己的语言处理技术,是件非常值得做的事情。

神州泰岳企业文化中有非常重要的一条,信奉坚持的力量,就是坚持长跑。长跑从字面上很容易理解,做软件的,做编程的,一看就懂。但要做到非常不容易,因为长跑要有非常艰苦的付出,重要的是坚持。杨凯程曾是一名军人,国防科技大学软件专业研究生毕业以后,到酒泉基地去实习,修铁路和训练,那时的艰苦,使他从事业的开始阶段就体会到了长跑的意义,以后每做一件事情都会记得提醒自己要坚持长跑,踏下心来,放下身段,认真研究事情的规律,尽他最大努力把事情做好。杨凯程常说,要是每一件事情都能坚持长跑,不达目的不罢休,人生中就没有办不成的事了。

神州泰岳的许多高管和技术骨干,都有一种浓厚的家国情怀。无论是读书从军还是做企业,总是想着要为国家为民族做一点事情,这样活着才有意义。从部队转业以后,刚创业时,杨凯程开发过一个我国第一次经济普查的统计系统,时间紧,任务重,没有经验,报酬也不确定,当时激励他和他的团队把这件事情做下去的动力就是大家觉得这是在为国家做事情,总是要有这样一点精神。最后的结果是经济普查使我国的GDP直接上升了,从第七上升到了第四,为国家摸清了家底,增强了自信,这是杨凯程直至今天仍然觉得自豪的事情。他说,他和他的团队也要用这种精神来做泰岳“语义工厂”。