流程引擎能力中心 全栈智能监控中心 AI能力中心 能力编排中心 机器人能力中心 用户服务中心 RPA能力中心 自动化能力中心 统一采集操作中心 配置资源管理中心 数据共享中心 猎豹智维平台
身份与访问安全管理系统 Ultra-SecFort集中运维审计堡垒机系统 Ultra-ZTIAM 零信任身份服务系统
Ultra-AMR资产安全核查系统 Ultra-BMS安全基线管理系统 Ultra-DeepScanner 深度漏洞全量核查系统 Ultra-PWAnalyser 资源弱口令核查系统
Ultra-APT Detector高级网络威胁识别 Ultra-SmartSensor全流量数据采集探针 Ultra-FWAnalyser 神州泰岳防火墙策略核查系统
Ultra-SOMC安全运行管理中心 Ultra-SecSight信息安全大数据态势感知系统 Ultra-ESA企业综合安全审计系统 SecSight-SOAR安全编排自动化与响应平台
Ultra-DSM数据安全管控产品 Ultra-SmartDLP Detector数据防泄漏系统 Ultra-MSFolder个人安全文件夹系统
Ultra-SmartLxCShield容器安全防护系统 Ultra-SmartGrid网络资产智能微隔离系统 Ultra-SecCloud安全云服务平台 Ultra-SmartShield云主机安全防护系统
5G专网通信产品 EVA泛融合通信平台 高精度定位系统 宽带接入微基站 物联网传感器 EVA会议宝私有云一体机
接入节点设备 汇聚节点设备 智能温控除湿机 特高频局放传感器 超声波局放传感器 暂态地电压局放传感器 SF6气体微水与密度监测传感器 暂态地电压(TEV)超声波局放传感器
全业务可观测平台 Ultra-AIOps 企业知识共享平台 敏捷ITSM管理 数智化运营管理 数字化研发效能平台 电信业务端到端监控
混合多云管理 IDC运营管理 集约化综合网管 算网大脑 核心网运维工作台 IP运维工作台 家客业务运营支撑 政企业务运维支撑系统解决方案 CDN运维工作台 SDN控制器 电子运维管理平台
大模型MaaS平台 智能数据分析 IP网运维智能体 核心网运维智能体 知识增强 智能办公助手 智能研发
消息中台 5G消息CSP平台 渠道运营服务解决方案 一体化营销服务 短信网关
身份与访问控制解决方案 安全合规解决方案 安全威胁分析与预警解决方案 安全资产管理解决方案
特权帐号管理解决方案 一体化信息安全风险感知解决方案 安全基线管理解决方案 安全审计解决方案
安全运营管理解决方案 安全运行保障解决方案 网信办安全态势感知解决方案
泰岳安全中台解决方案 零信任安全解决方案 泰岳数据安全解决方案
AWS SMB上云服务 AWS DevOps服务 AWS架构优化服务 云原生应用开发服务 AWS账单服务 AWS上云迁移服务 AWS云上代维服务
5G通信解决方案 Nu-Comm融合通信系统 智慧园区解决方案
变电在线监测系统解决方案 变电站远程智能巡视系统解决方案 变电数字孪生站智能一体化解决方案 数字主变健康多元状态评估解决方案
社区警务便民小助手解决方案 智脑案情分析系统解决方案 警情数据分析平台解决方案
日前,神州泰岳AI研究院与中科院深圳先进技术研究院合作推出的“BERT-EMD一种蒸馏BERT的方法”被自然语言处理(NLP)方向的国际学术会议EMNLP 2020收录。
一年一度的全球学术大会EMNLP是计算机语言学和自然语言处理领域最受关注的国际学术会议之一,由国际语言学会(ACL)旗下SIGDAT组织。其中,会议涵盖的语义理解、文本理解、信息提取、信息检索和机器翻译等多项技术主题,是当今学术界和工业界备受关注的热点方向。据悉,EMNLP 2020共收到有效投稿3114篇,录用754篇,录用率为24.82%。在即将召开的EMNLP学术会议上将展示自然语言处理领域的前沿研究成果,这些成果也将代表着相关领域和技术细分中的研究水平以及未来发展方向。
由神州泰岳AI研究院与中科院深圳先进技术研究院合作推出的BERT-EMD相较于以前工作蒸馏BERT的方式,有效地解决了人工指定蒸馏学习层次对应关系的弊端,在GLUE Benckmark上,我们提出的知识蒸馏的方法不使用数据增强技术,6层模型有着12层BERT相当的结果,另外我们的方法不需要研究者手动指定层次映射关系,目前在GLUE Benckmark已超过其他蒸馏模型(如TinyBERT, BERT-PKD等)。下文中梳理了 BERT-EMD的压缩方法。 论文链接:https://arxiv.org/abs/2010.06133 代码:https://github.com/lxk00/BERT-EMD
正文 BERT-EMD 借助EMD实现多对多层映射的BERT压缩方法
简介 …
在 NLP 领域,BERT一经出现就吸引了所有人的目光。此后根据BERT推出了 XLNET、RoBERTa、ALBERT、T5、Megatron-LM、Turning-NLP 等性能卓越的改进模型。但是这些模型体积愈发庞大,从 BERT-large 的 3.4 亿参数到 Turing-NLP 参数规模的 170 亿参数。单个样本计算一次的开销动辄上百毫秒,很难应用到实际生产中。BERT蒸馏技术应运而生,解决了模型大小和推理速度的问题,而且使用该技术的模型大小并没有明显的下降。
近一年来,知识蒸馏(Knowledge Distillation)作为一种常用的模型压缩方法逐渐成为BERT蒸馏的研究热点分支。最初针对BERT模型的蒸馏学习是利用教师和学生网络的输出logits计算蒸馏损失,然而这样不能学到Transformer 中间层的信息。随后的研究通过对教师 BERT 模型中所有Transformer层的first token,attention,hidden parameter输出等进行蒸馏,将大 BERT 的中间层信息迁移到小模型上,学习到的学生模型有了更好的表现。这种方法最近也成为了BERT蒸馏的主流方法。包括PKD-BERT到TinyBERT,MobileBERT,都是采用指定层对应学习的方式进行蒸馏。
然而为了压缩模型大小,学生模型的层次数量一般小于教师BERT模型的层次数量,因此中间层的学习不能做到层次一一对应。目前的BERT蒸馏方法均使用跨层映射的方法(Skip),其层次映射函数为, 其中为教师,学生模型的指定层次,为教师,学生模型的层数。举例而言,如果教师模型有12层,对应的学生模型有4层,具体对应为 student 第 1 层 transformer 对应 teacher 第 3 层,第 2 层对应第 6 层,第 3 层对应第 9 层,第 4 层对应第 12 层。
图 1 跨层映射策略
该指定方法获得了不错的效果,但存在如下问题:该蒸馏过程中部分层次的信息必然被舍弃。不同任务可能需要学习不同层次的知识,这种强制指定不一定适应所有任务。
我们的方法解决了这两个问题,无需进行层次对应指定,且能够实现多层对多层的蒸馏学习。我们的主要贡献如下: 1.我们提出了先进的多层对多层的BERT蒸馏方法,BERT的中间层以自适应和整体的方式进行学习; 2.我们引入EMD方法衡量学生模型和教师模型之间的差异; 3.我们提出了一种Cost Attention 机制,在蒸馏学习中建模不同隐含层的重要程度; 4.在GLUE任务上进行的大量实验表明,BERT-EMD的性能优于最新的BERT蒸馏方法。
模型实现细节 …
图 2 模型
与TinyBERT类似,我们的方法同样包括logits,hidden parameter,embedding和attention的蒸馏。下面我们分别介绍:
实验结果 …
我们对比了BERT Small,DistillBERT,BERT-PKD,TinyBERT,可以看到4层和6层的BERT-EMD均好于这些压缩方法。在未引入数据增强的情况下,6层的BERT-EMD甚至MNLI,QQP,QNLI,MRPC,RTE,STS-b这几个数据集上超过了BERT-base,同时比BERT-base快约一倍。
根据图2的结果,我们有几个关键的观察结果。首先,在压缩Transformer时,不同的任务可能会更倾向于不同的教师层。矩阵的对角线位置对于MNLI任务几乎总是很重要的,它与传统跳层的映射策略呈现相似的趋势。但是,对于RTE任务,每个学生Transformer层都可以向任何教师Transformer层学习。先前的映射方法无法充分利用教师网络。另外从结果中也可以看出,BERT-EMD在RTE数据集上的提升比MNLI要大。
团队介绍 …
杨敏,中国科学院深圳先进技术研究院副研究员(博士生导师),中科院深圳先进院得理法律人工智能联合实验室主任,中国科学院青年创新促进会成员。长期从事人工智能、自然语言处理、数据挖掘相关研究并取得了一系列研究成果,在相关领域的CCF-A类国际学术会议和JCR Q1期刊上发表高水平学术论文80余篇。 李健铨、刘小康硕士毕业于天津大学量子智能与语言理解实验室,就职于神州泰岳AI研究院深度学习实验室,在自然语言处理方向合作发表论文6篇,获得AI专利授权8项,申请发明专利55项。负责研发的产品“泰岳语义工厂”获得第九届(2019)年吴文俊人工智能科技进步奖(企业技术创新工程项目)。