流程引擎能力中心 全栈智能监控中心 AI能力中心 能力编排中心 机器人能力中心 用户服务中心 RPA能力中心 自动化能力中心 统一采集操作中心 配置资源管理中心 数据共享中心 猎豹智维平台
身份与访问安全管理系统 Ultra-SecFort集中运维审计堡垒机系统 Ultra-ZTIAM 零信任身份服务系统
Ultra-AMR资产安全核查系统 Ultra-BMS安全基线管理系统 Ultra-DeepScanner 深度漏洞全量核查系统 Ultra-PWAnalyser 资源弱口令核查系统
Ultra-APT Detector高级网络威胁识别 Ultra-SmartSensor全流量数据采集探针 Ultra-FWAnalyser 神州泰岳防火墙策略核查系统
Ultra-SOMC安全运行管理中心 Ultra-SecSight信息安全大数据态势感知系统 Ultra-ESA企业综合安全审计系统 SecSight-SOAR安全编排自动化与响应平台
Ultra-DSM数据安全管控产品 Ultra-SmartDLP Detector数据防泄漏系统 Ultra-MSFolder个人安全文件夹系统
Ultra-SmartLxCShield容器安全防护系统 Ultra-SmartGrid网络资产智能微隔离系统 Ultra-SecCloud安全云服务平台 Ultra-SmartShield云主机安全防护系统
5G专网通信产品 EVA泛融合通信平台 高精度定位系统 宽带接入微基站 物联网传感器 EVA会议宝私有云一体机
接入节点设备 汇聚节点设备 智能温控除湿机 特高频局放传感器 超声波局放传感器 暂态地电压局放传感器 SF6气体微水与密度监测传感器 暂态地电压(TEV)超声波局放传感器
全业务可观测平台 Ultra-AIOps 企业知识共享平台 敏捷ITSM管理 数智化运营管理 数字化研发效能平台 电信业务端到端监控
混合多云管理 IDC运营管理 集约化综合网管 算网大脑 核心网运维工作台 IP运维工作台 家客业务运营支撑 政企业务运维支撑系统解决方案 CDN运维工作台 SDN控制器 电子运维管理平台
大模型MaaS平台 智能数据分析 IP网运维智能体 核心网运维智能体 知识增强 智能办公助手 智能研发
消息中台 5G消息CSP平台 渠道运营服务解决方案 一体化营销服务 短信网关
身份与访问控制解决方案 安全合规解决方案 安全威胁分析与预警解决方案 安全资产管理解决方案
特权帐号管理解决方案 一体化信息安全风险感知解决方案 安全基线管理解决方案 安全审计解决方案
安全运营管理解决方案 安全运行保障解决方案 网信办安全态势感知解决方案
泰岳安全中台解决方案 零信任安全解决方案 泰岳数据安全解决方案
AWS SMB上云服务 AWS DevOps服务 AWS架构优化服务 云原生应用开发服务 AWS账单服务 AWS上云迁移服务 AWS云上代维服务
5G通信解决方案 Nu-Comm融合通信系统 智慧园区解决方案
变电在线监测系统解决方案 变电站远程智能巡视系统解决方案 变电数字孪生站智能一体化解决方案 数字主变健康多元状态评估解决方案
社区警务便民小助手解决方案 智脑案情分析系统解决方案 警情数据分析平台解决方案
CCF-GAIR 2018 延续前两届的顶尖阵容,提供 1 个主会场和 11 个专场(仿生机器人,机器人行业应用,计算机视觉,智能安全,金融科技,智能驾驶,NLP,AI+,AI芯片,IoT,投资人)的丰富平台,意欲给三界参会者从产学研多个维度,呈现出更富前瞻性与落地性相结合的会议内容与现场体验。
在第三天上午的自然语言处理专场上,在精彩的大会报告及主题演讲结束后,四位企业界的嘉宾为在场观众分享了他们在实践中的技术收获,并在圆桌讨论环节畅谈自然语言处理的落地难点及应用未来。以下为圆桌环节全文整理,本公众号有微调。
奕欣:各位观众和嘉宾上午好,我是雷锋网 AI 科技评论主编奕欣,很荣幸担任 NLP 专场圆桌主持人,刚刚我们聆听了非常多的大会报告及主题演讲,也对 NLP 在学术前沿的认识有了充分而深刻的感知,接下来我们将以更加深入的角度了解自然语言处理的商业落地,也是本次圆桌论坛的主题。
四位圆桌嘉宾分别是:云孚科技创始人兼 CEO 张文斌;竹间智能 CTO 翁嘉颀;神州泰岳大数据 VP 张瑞飞;薄言 RSVP.ai 联合创始人 CTO 熊琨。
首先邀请每位嘉宾用五分钟的时间做一个技术分享,掌声有请:神州泰岳大数据 VP 张瑞飞先生,张瑞飞先生具有十年以上大数据及人工智能从业经验,他会为我们带来怎样的技术分享呢?有请张瑞飞先生。
张瑞飞:我今天跟大家汇报一下神州泰岳做自然语言处理商业落地的考虑。讲到商业落地,大家可能会讲一个问题,就是我们要解决几个矛盾,经过这两年的市场训练和这次大会的培训,大家都知道人工智能现在处于初级阶段,尤其在认知科学领域。在初级阶段要落地,就意味着你要管客户收钱,我想这是第一个矛盾。第二个矛盾是我们要解决成本和实际达成成效之间的平衡,理论上讲,只要你投入足够多的成本,人工智能的效果就会更好一些,但是它又有最佳值,我们要找到最佳值在哪儿。第三是我们要解决在算法工程和基础算法之间的选择,我们在算法工程中要解决的问题和我们在基础算法中进行的优化研究结合起来。
以我们在公共安全领域的例子跟大家讲一下,我想在座各位都非常同意这一点,就是你在解决算法、数据和算力这三个数据时,肯定先搞定数据,包括腾讯的钟黎先生和刚才各位嘉宾所说的,我们做内容之前要做预处理,先从接警事件开始,标注横行 400 万份样本,在此基础上做领域专业词向量,领域专业词向量可以预提取和计算体征,我们可以把公安的文本覆盖率达到 99% 的泛化能力,这是第一步。
第二步,做了这个内容还不够,这个内容只做了工程化的基础,它是所有算法的基础和基石,使得算法可以适用于这个领域,但它远远不够,比如地址的问题,经过地址抽取,在地址之上进行更多的二次加工,我们搜集整理了大概 110 个维度下 190 万个地址,进行地址归因化、地址地配、跟公安的融合等等,这是工程化的第二步,也就是怎样在成本成效中有所取舍。除了地址以外,还有作案手段、嫌疑人、公司名称、人名等,这方面都需要二次加工。
第三,我们要考虑迁移学习的内容,以前训练不同地域的公安同一警种内容时,每个案例要提供 5000 个样本,通过迁移学习迭代,可以不断减少样本数量,从 5000 个减少到 100 个样本进行模型工程泛化工作,最后我相信这个数量会降到十位数或个位数。
有了这些还不够,我们可以用深度学习网络构造双向 LSTM 管,配合 CRF 进行要素提取或语义结构提取训练。但还是不够,它的难度在于我们怎么把一些算法做优化和改进,其中一个可以考虑的方向就是把人类已有的知识结构和语言结构和深入学习进行融合,通过融合,能有 5%-15% 的准确率提升,这一步很关键,这一步决定了你的算法在落地时是可用的还是不可用的。
这里举了一个例子,但远远不限于这个例子,我们讲融合时通常有两种方法,一种方法是在算法工程上融合,这里举的是算法工程上融合的例子,我们把概念单元、把 3192 个句类、语境单元和记忆标好,实现有限和无限之间的哲学关系,概念是无限的,但概念单元是有限的,语句是无限的,但句类是有限的,语境是无限的,但语境单元是有限的。我们把已有的结构化知识或者图的知识结构,就是用人脑可以分析的知识结构直接融入到神经网络中,我们在算法中把它适配和协调起来,这样算法落地时才准,准是你能使用的非常高的影响力,它也是能要到钱的基础。
有了这些还不够,我们还需要结合大数据技术、图谱技术、流程技术,但我要提醒大家的是不是有了一个工程团队就结合了大数据,我们需要看做大数据的什么、做人工智能的什么、做应用的什么,把它结合起来。
我们跟中文信息学会进行合作,也跟北京师范大学开源了一套词的预向量集,一共 50G 的文本量,是目前全球最全的文本预向量集。我们也跟中文信息协会建立了生态合作联盟,我们需要合作,需要在合作过程中共同成长,我们也发布了中文深度语义平台,希望大家联合起来,把 NLP 的落地真正走向产业化和实用化的阶段。谢谢各位!
奕欣:感谢张瑞飞先生的演讲。接下来有请云孚科技创始人兼 CEO 张文斌先生;云孚科技致力于做全球领先的中文语义技术服务商,核心工具包括 NLP 工具包、知识图谱、文本挖掘及对话等。
张文斌:大家好!我是云孚科技 CEO 张文斌,感谢雷锋网和刘老师的邀请,可以在这里跟大家探讨云孚科技对 NLP 商业化上的理解和一些探索工作。
首先说一下 NLP 的特点,NLP 的一大特点是需求非常多,NLP 核心处理语言文字,需求非常广泛。这是各行各业的客户提出的真实需求,任务非常多,这是 NLP 的第一大特点。第二大特点是 NLP 难度非常大,这是我们搜集的分分钟逼死 NLP 从业者的的 CASE,比如「校长说衣服上除了校徽,别别别的」,计算机理解起来会非常难。再比如这首打油诗,字都一样,稍微调换一下顺序,表达的意思就完全不同。中文博大精深,对从业者的挑战非常大。
接着看商业化,商业化的本质首先一定要盈利,其次要做到规模化盈利,这也是创业公司最本质想做的事情。对于人工智能这一块的创业公司要盈利,大方向有两个,做 toC 直接面对消费者,和做 toB 面对企业。云孚科技选择了 toB,周期相对可控,比较容易把营收做起来。规模化盈利又有两个方向,创业公司选择最多的是深入行业做垂直行业的应用,这样可以规模化做特定行业用户,而且可以做大订单,这是一个方向,也是投资人比较认可的方向。我们还看到另外一个方向,就是做基础技术平台,因为它足够基础,可以面向多个行业的客户提供产品,订单相对比较小,但客户数更广,这个方向也可以做出规模化盈利的效果。
结合我们团队的特点,包括我们对于产业的判断,还有一点就是 NLP 的技术难度非常大,前面几位老师从学术界作出的效果,因为任务非常多,很多指标在 70、80% 的阶段,整体基础技术平台的很多任务没有达到理想效果,所以云孚科技先选择把基础技术平台做好,创业公司的核心不是提出新的模型和算法,我们是结合学术界最好的模型和算法,从工程、数据角度,把效果优化到理想程度。
最终我们的战略打法总结起来就是:「先横后纵、自底向上」——先做横向的、底层的技术平台,再做纵向的、上层的行业应用,这是我们有别于很多 AI 创业公司的打法。
这是我们目前的技术产品架构,最底层是云孚自然语言处理平台,中间一层是文本挖掘平台,最上面一层是企业智能信息处理平台,为企业提供各种智能化信息处理解决方案。
NLP 是一个非常有意思的领域,难度很大,价值也非常大,云孚科技探索之路上狂奔,也欢迎有意愿的朋友和我们一起探索 NLP 领域无限的可能性。谢谢大家!
奕欣:非常感谢张先生的精彩发言。接下来有请竹间智能 CTO 翁嘉颀先生,翁嘉颀先生负责竹间智能在 AI 领域产品研发与技术规划,涵概对话机器人、计算机视觉、金融科技等领域,掌声有请。
翁嘉颀:各位好,我是翁嘉颀,我们公司主要是做情感计算和文本分析、自然语义理解,情感计算。跟别人不同的地方是我们不只做文本情感,还做语音情绪和表情。比如高考刚结束,如果你看到一段文字「我高考考了 500 分」,这个时候你应该恭喜我还是安慰我?其实你不知道,这就要看我讲话的语气。
我们公司的创办人 Kenny 之前是微软工程院副院长,负责 Bing、小冰、小娜,我之前是做搜索引擎的,公司很多同事也是做搜索引擎出身的,你会发现做人工智能的很多人都是从搜索引擎公司出来的。
文字情绪有 22 种,说 22 种有点多,至少负面情绪,反感、愤怒、悲伤、害怕要分开,我害怕、我伤心、我愤怒虽然都是负面情绪,但人机交互的反馈应该不一样。人脸表情我们做了 9 种,语音情绪做了 4 种,然后把它合在一起。
来看一个例子,这是两年前最有名的一段视频,左上角是她的人脸表情,左边的中间是语音情绪,左下角是文字情绪,傅园慧说「在澳洲训练非常辛苦,我已经快死了,简直是生不如死」从文字上来可能是愤怒的。「鬼知道我经历了什么,我太累了」,文字上是辛苦的,但是人脸表情、语音情绪不是,所以总结起来还是开心的。这个视频不管看多少次你都会非常开心。
我们目前主要在金融、电商、IOT 领域、运营商等领域落地,公司成立近三年,除了第一年做技术的打磨,后面都是在做客户的落地项目,我想分享的是目前人工智能必须从单个到单独的领域去突破,去那个领域先收集语料,以及到底要解决什么问题,针对这一类问题我能解决哪些?比如订酒店,今天我要订酒店,我可能会说「我要订万豪酒店旁边的快捷酒店」,如果抓关键词的话,会以为我要订万豪酒店。再比如订餐,我大概有七八个大人再加两个小孩,七八个大人是七十八个人还是八个人?再比如说「几点」?六、七点,不不不,改成八点好了。那么到底是几点?
在我们的认知中,希望未来每个人有自己的机器人,你的机器人能理解你,记得你,我跟手环或机器人说「帮我点个外卖吧,我肚子饿了」,它能记得我喜欢吃什么、不喜欢吃什么,而且它知道我昨天吃过什么、前天吃过什么,不要点重复的东西。每个企业都应该有点餐机器人,可以做智能客服的回答。未来我们还可以跟机器人交流,比如我跟手环说「帮我点个巨无霸吧」,它知道这是麦当劳的产品,会找到麦当劳的机器人,两个机器人对话,帮我搞定。
奕欣:非常感谢翁嘉颀先生的发言。接下来有请薄言 RSVP.ai 联合创始人 CTO 熊琨,熊琨先生毕业于清华大学计算机系,后就读于滑铁卢大学,他十多年来专注于深度语义解析和人机对话研究。
熊琨:我们公司叫薄言,英文叫 RSVP.ai,RSVP 是法文缩写,表达的含义是希望得到你的回复,我们公司的初衷就是希望让机器了解语言,自动帮人做一些关于语言的事情。
我们是一家发展机器学习技术,提供自然语言深度解析服务的公司,为 B 端、为合作企业进行加速。公司 2013 年在加拿大成立,另外一位联合创始人是加拿大滑铁卢的教授,也是皇家科学院院士,他 2012 年获得过加拿大科学最高奖 KillamPrize,这个奖大家可能不熟悉。但是大家所熟知的 GefforyHinton 在 2014 年获得该奖,李明老师是在 2012 年。薄言 RSVP 得到了清华大学计算机系的支持,感谢朱晓燕教授和系主任孙茂松教授,早期我们的人才储备也是通过清华和滑铁卢的交换项目。
我们早期一直做英文研究,近年转入中国市场,团队目前主要在加拿大和中国,李老师毕业于康奈尔大学,其他团队成员主要是来自清华、滑铁卢大学,北京大学,华中科大以及谷歌。
简单介绍一下我们现在做的事情,一是任务型 NLU,现在提供的服务也是这样的服务,这是在智能家庭环境下做电影查询解析,右图是在小米智能电视上做的例子。
这一页 PPT 本来是想说更多,我们公司的研究员会花很多精力在基础深度学习方面的研究,主要在于端到端怎么引入更多的知识,解析时我们希望深度学习网络不仅仅给出概率分布,还希望给出图状结构,能够解决文法表达的问题,大家都知道,上下文无关文法在计算机计算中还有很多是理论上难以计算的问题,所以我们需要在编译算法上下工夫,目前已经有了一些进展,还在继续研究中。我们也花了很多工夫,让通用模型更大语料帮助我们在垂直领域得到更好的效果,任务型自然语言解析基本上是做这个事情。
对于对话型的理解其实是更难的问题,因为人们在对话中往往会省略一些大家知道的信息或者以前说过的信息,我们现在用深入学习端到端网络做这件事情,很多时候可以很容易的跟一些传统 NLU 系统做对接,这些 NLU 单元不用太关注上下文的问题,比如这个例子中,说的主体是九寨沟以及人多不多的问题,我们可以对单句进行补全。这个端到端的网络设计了一种类似于机器阅读理解的结构,论文刚刚投出去。
薄言也可以作古诗,我们的机器作诗没有像孙老师从文学角度出发,主要是在考虑各类生成网络在中文上的生成效果,例如:GAN,RNN 和 VAE,论文发表在 IJCAI 2018, 这个网络可以用更少的参数和知识让它对一些主题进行生成,并且也可以做藏头、七言律诗、五言律诗,我们有一个类似于「九歌」的系统叫「暖暖」,大家也可以在微信上关注薄言豆豆,体验作诗的效果。
我们现在的使命还是极大程度的降低人工标注,不光模型算法,包括交互界面上,现在的自然语言平台可以让用户定义 NLU,公司未来也会花超过一半的精力继续放在基础机器理解和自然语言框架上,未来的目标是想构建多层理解的构架模型。
感谢大家,期待接下来的讨论。
奕欣:今天大家将会聊一来自然语言处理商业应用上的各种议题,近年来产业界和学术界的交融越来越频繁,希望能跨越双方的沟通桥梁。
2018 年对于自然语言处理技术来说是产生巨大飞跃的一年,比如说阿里、微软、哈工大、讯飞联合实验室相继突破了人类水平,NLP 技术发展触及新里程碑,人们对此有新的期待和信心。在第一天主会场张钹院士的报告中,张钹院士在演讲中展示了一张表,横轴代表领域的宽窄,从单领域、多领域到开放领域,纵轴表示信息的确定性和完全性,从确定到不确定领域,从完全到不完全信息,其中自然语言处理正位于最难的位置。接下来有请四位圆桌嘉宾跟我们一起畅聊,自然语言处理到底有哪些落地的技术难点和应用难点,有请各位圆桌嘉宾上台。
第一个问题,现在语音识别、人脸识别研究领域相对落地比较快,NLP 目前在落地上技术还是不够完善,请问各位嘉宾,目前在技术上还有哪些鸿沟需要跨越?
张文斌:NLP 技术目前处于相对不太成熟的阶段,也是因为它的任务非常多且复杂。分词相对比较成熟,测试语料上准确率可以做到 97% 以上,就算分词这么成熟的技术,落到特定行业,面对一些新词,效果还是不足够理想,还需要花很多精力去做针对特定领域去做优化。从分词往上,很多基础的 NLP 任务都有很大的优化空间,所以这也是云孚科技目前发力的方向,先把 NLP 基础技术平台做好做扎实,再在上面搭建上层的应用。
翁嘉颀:目前 NLP 在短文本、短句 15 个字以内,意图理解、意思理解可能没有什么问题,长文本目前还不太行,举个例子,我们在电商遇到的「昨天买了一支口红,我妈妈看了也很喜欢这个颜色,既然还没有发货,能不能多买一支」?四个子句,这句话的意图到底是什么?中间有问号、有逗号,可能连人都不一定搞得懂,更何况机器。这句话的意思其实是「我要修改订单」,这一块的攻克是很长远的目标。
张瑞飞:自然语言处理属于认知智能范畴,所以自然语言处理的终极目标是理解人类的思维和想法,在这个过程中,我们需要拿捏尺度,这个尺度即把机器智能和人类智慧融合在一起,而不是用机器智能取代人类智慧。
在领域分析,我们现在比较关注的是怎么把视觉中已经取得的技术,比如 DCN 技术应用在文本中。给大家举一个直观的例子,现在网上的舆论控制,比如涉黄、涉毒、涉恐信息用人眼能马上看起来,但用机器识别没有终极解,它总能找出一些异常来,这方面有一些思路和算法上的改进,可以处理问题。
奕欣:视觉和自然语言处理的结合也是现在比较火的一块。
熊琨:我们在商业化上还是比较初步的,更多的还是从研究的角度考虑这件事情,因为我们已经开始做商业化,比较困难,一方面是比较通用的问题,目前自然语言处理的问题是如果我把算法做得特别深,往往有普适性的问题,如果做平台,往往做深入就会有困难,这是第一点。第二点,拿语义相似度短文本来讲,我们遇到的商业化问题,比如最早能在对话或问答领域达到比较好的效果,接下来电商领域或法律领域的数据集上来,它们的训练语量没有那么多,但又有各自领域自己的知识和特点,这个时候通用的数据集怎么达到更好的效果?这是我们想克服的挑战。第三点是在商业化中,自然语言处理跟 CV 领域还有一个差别,大家很多时候是用大量的 LSTM、Model 等,哪怕 Attention 才是你真正需要的东西,但实际上它还是时序模型,如果我把它放到线上系统,时延是有问题的,而且成本非常高,哪怕谷歌做邮件回复,他们自己都认为用 LSTM 是比较贵的,所以自然语言处理商业化也要考虑成本问题。
奕欣:熊老师的回答引出了第二个问题,结合各位公司的实际业务,目前有哪些需要重点解决的问题?
熊琨:我们现在比较关注的问题,也是相对比较简单的问题,即短文本语义相似度,刚才腾讯的研究员(钟黎)也讲到了,首先在学术领域会做很多研究,关于 Q 和 Q 的相似度,也有 Q 和 A 的相似度,其实很多时候是通用的。其他客服领域遇到的数据,比如手机、电脑领域,我买一部华为手机,发现屏幕不亮了,客服人员经常给出的正确答案是「你重启一下」,实际上在语义上这两句话不是完全相等的。此外,我们在方法上还有一个维度的区别,现在很多服务是基于搜索的技术,现在业内也有一些新的评价方式,即在平行文本做评价,两种评价都达到很好的效果,但是如果做交叉,总会有损失,这个问题对我们来讲是比较棘手的问题。
张瑞飞:我们现在的核心要解决标注好的数据,用户使用过程中反馈的数据,因为做人工智能脱离不了对业务的理解,比如公安行业,不能只是做信息化的人,没有业务反馈,这个过程中,人工智能想在领域化内取得有效、出色的应用,就要把这个问题首先解决掉,这是我们的核心问题。其他问题还有很多,比如跟其他系统的关联,比如怎么做好更好的搜索引擎,怎么做出更快的图谱来,怎么把百亿级计算压缩到毫秒级,这些都有要求,但第一要解决的就是数据问题。
奕欣:刚刚翁嘉颀先生在演讲中也提到了机器人的内容,能否结合这一块跟我们分享一下?
翁嘉颀:如何做好对话控制,如何限制用户讲话方式,这真的是一个技巧,因为用户乱讲一通,你是没有办法理解的。举个例子,刚刚讲到法律,我们做过政务机器人,其中有离婚场景,您要离婚?有没有共同财产?这句话表面上看起来就是 YESorNO,但用户不是这样回答的,用户会说十年前我们共同买了一套房子,本来是一个人名下,后来转到两个人名下。类似这样的问题,客户乱回答,机器人根本没有办理继续下去,如何做好对话控制是目前可以落地的一个方向。
张文斌:我们目前更关注稍微底层一些的,包括信息抽取、知识图谱相关的东西,我们有很多非结构化文本存在,怎么在这上面把他们想要的结构化信息抽取出来,抽取完再构建这个行业的知识图谱。做的过程中有各行各业的需求过来,如果以传统的机器学习或人工智能的方法做,需要大量的标注语料,这个成本往往非常高,怎么样在没有标注语料或很少的标注语料的情况下就能把这一块做起来?我们也积累了一些经验,一般可以先用已有的通用系统结合基于规则的方法先做一版系统出来,这样可以先跑一个初步结果,从中挑一部分比较严重的 badcase 出来,人工标注语料,再重新训练模型,如此反复迭代。最终可以花比较小的人力标注成本把系统迁移到其他领域。当然,刚才说的这个过程还比较理想,怎么样用尽可能少的标注语料,可以快速迁移领域?这是我们实际工作中碰到的一个非常实际的问题。
奕欣:非常感谢几位老师的分享,既然今天是产学结合的会议,我也想请教一下各位老师,目前深度学习对 NLP 的影响还是挺大的,像雷锋网参加 ACL 这样的学术会议,能感觉到每篇论文都有接触深度学习的方面,请问学术界的前沿研究对于企业的产业化落地能得到哪些借鉴和思考?
翁嘉颀:我们目前的实验结果是没有一个单一的算法能够解决好问题,不管是用深度学习的哪一种算法,或者是哪一个规则,或者向量,或者模板的方式,比较有办法做的是拿各式各样新的东西,目前基本上所有 Paper 上提到的算法我们都试过,可能要看四、五十篇 Paper,从里面融合出一个方法,所以每一个算法,每一个 Paper 都有它可取的地方,比如其中四个算法告诉我他要退货,一个算法告诉我他要换货,我会用投票的方式,比较有机会真正落地解决问题,因为算法有弱点,用多个算法去做,能互相弥补缺陷。
张瑞飞:首先我们不能评价哪个算法好与坏,因为算法要看适用场地,适用你的应用场景的方法就是最好的方法。目前的深度学习算法是向人脑致敬的过程,典型的有 CNN,这个过程中我们可以对这个算法做适度优化,优化方向是把人类取得的知识结构跟算法做有机融合,这是我们希望专注下去的方向。
张文斌:我们在这一块的经验比较丰富,公司跟哈工大社会计算与信息检索中心中心是非常紧密的合伙关系,我们的主要工作就是把学术界的 NLP 研究成果真正落地产业化。在这个过程中,我们的经验体会是这样的,学术界的诉求跟工业界还是不一样,学术界追求理论上、模型上的创新,如果有重复了就需要构思下一个新的模型。而创业公司是把他们探索出来的模型拿过来试,我们的核心是效果导向。基于这一思路,我们内部也搭建了一套统一的基准平台,先给算法和数据分别定义好统一的接口,然后就能很方便地替换成算法或模型以及数据进行效果测试,这样就可以快速尝试新的算法模型,到底在特定任务上效果怎么样,纯粹根据效果来挑选最终适合这个任务的整体模型方案。其次,真正用这些算法做预测时,我们还得考虑它的性能,在正式场合,包括它需要的硬件条件是否符合业务需求,这也是我们落地时要考虑的因素,有的算法虽然非常高大上,可能高出 0.1 或 0.2 个点,但它的速度慢了很多,对硬件要求特别高,我们就会有所取舍,采用更加实用的算法。
非常同意文斌说的第一点,现在很多论文充斥着大量深度学习的文章,但都是基于有限的假设,主要是会议会发布一些黄金数据集,但这些数据集往往跟我们面临的问题是不一样的,所以非常重要的是公司内部要有自己的测试集和标准,对于新的方法能够快速适应和尝试。现在对于「试」这件事情是非常重要的,原来我们要求研究人员一周之内把一篇 Paper 写出来并且测试,现在可能缩短到 2-3 天了。我的看法是不见得有最好的算法,主要是最合适的,对我来讲,很多时候是多层解决方案,甚至还要考虑关键词的传统方法结合自然语言算法可能效果是比较好的。公司内部也会分开,刚才说的这一部分主要是结果导向,另一方面我们的研究团队,也在探索一些更新的网络以及学习方式,思考机器推理,或者其他类人脑活动的机器学习方式。
奕欣:非常感谢熊琨老师的分享。接下来是最后一个问题,我发现各位嘉宾的公司名字都起得非常有意思,比如薄言、竹间、神州泰岳、云孚科技,它们想必都包含着创始人对于自然语言处理的美好期许,最后请各位嘉宾结合自己公司的名字展望一下自然语言处理技术的未来。
张瑞飞:我们希望我们在中文自然语言处理上做出独特性,自成一派,做出为国家争光的东西,为自然语言处理落地。神州泰岳是在神州大地上的一个企业,我们也希望借着「神州泰岳」这个名字的吉言把这一块工作做好。
奕欣:也希望神州泰岳越办越好,成为中国领先的 NLP 企业。接下来请云孚科技的张文斌先生来分享下。
张文斌:这是一个考验创始人自然语言处理能力的题目,「云孚科技」是我自己起的,云是现在比较火的概念,我们的初衷是自然语言处理能力的门槛非常高,尤其是对于很多中小企业或传统企业,他没有很好的 NLP 研发团队,我们希望把我们顶级的 NLP 技术能力封装好,最终以云的形式普惠给所有有需求的企业。「孚」是信誉的意思,做人做事一定要靠谱,讲信誉,我们做的产品一定要可靠,给客户带来实际价值,所以叫云孚科技。
奕欣:是一个既仰望星空又脚踏实地的名字,接下来请熊老师展望一下。
熊琨:刚才我讲了英文,中文可以再说一点,薄言这个名字起得比较草率,团队几个人觉得需要有中文的名字,因为 RSVP 实在太难读了,「薄言」来自于《诗经》,采采芣苡,薄言采之,「薄言」在这句话中没有具体的含义,是一个语气词,我们想表达的含义是以谦逊的态度处理语言,我们认为自然语言领域还在冬天之内,不管是技术落地还是商业化需求都没有真的出现,所以我们需要以谦逊、负责任的态度做科研,需要用更长的时间、更大的努力,特别是在加拿大这个苦寒的地方渡过寒冷的冬天,未来能积累出更强的技术,能让机器更懂我们的语言。
奕欣:最后有请竹间智能的翁嘉颀先生。
翁嘉颀:我们公司的英文名是「Emotibot」,所以公司一成立就是奔着情感机器去的,所以我们不只做文本,连语音、图像一起做,花了大量的人力,所有数据都是自己标注,光人脸就标注了 200 多万张照片,每张照片是三个人标,三个人都说是高兴,就是高兴,三个人都说是悲伤,就是悲伤,不然就要找心理学家做最后判断。文本更不用说了,不知道花了多少时间处理这些数据,我们认为情感计算会是未来的一个潮流,希望大家一起努力,把自然语言慢慢往前推,因为这一块目前不像语音和图像发展那么快速。
奕欣:非常感谢各位圆桌嘉宾在今天的 NLP 专场为我们带来的精彩分享,也非常感谢大家来到这里。
主持人:非常感谢以上几位嘉宾的精彩分享,本届大会延续了往届大会的盛况,汇聚行业精英大咖,围绕行业前沿话题,探讨未来发展方向。
最后,我谨代表活动主办方对到场的各位来宾最衷心的感谢。谢谢你们!