流程引擎能力中心 全栈智能监控中心 AI能力中心 能力编排中心 机器人能力中心 用户服务中心 RPA能力中心 自动化能力中心 统一采集操作中心 配置资源管理中心 数据共享中心 猎豹智维平台
身份与访问安全管理系统 Ultra-SecFort集中运维审计堡垒机系统 Ultra-ZTIAM 零信任身份服务系统
Ultra-AMR资产安全核查系统 Ultra-BMS安全基线管理系统 Ultra-DeepScanner 深度漏洞全量核查系统 Ultra-PWAnalyser 资源弱口令核查系统
Ultra-APT Detector高级网络威胁识别 Ultra-SmartSensor全流量数据采集探针 Ultra-FWAnalyser 神州泰岳防火墙策略核查系统
Ultra-SOMC安全运行管理中心 Ultra-SecSight信息安全大数据态势感知系统 Ultra-ESA企业综合安全审计系统 SecSight-SOAR安全编排自动化与响应平台
Ultra-DSM数据安全管控产品 Ultra-SmartDLP Detector数据防泄漏系统 Ultra-MSFolder个人安全文件夹系统
Ultra-SmartLxCShield容器安全防护系统 Ultra-SmartGrid网络资产智能微隔离系统 Ultra-SecCloud安全云服务平台 Ultra-SmartShield云主机安全防护系统
5G专网通信产品 EVA泛融合通信平台 高精度定位系统 宽带接入微基站 物联网传感器 EVA会议宝私有云一体机
接入节点设备 汇聚节点设备 智能温控除湿机 特高频局放传感器 超声波局放传感器 暂态地电压局放传感器 SF6气体微水与密度监测传感器 暂态地电压(TEV)超声波局放传感器
全业务可观测平台 Ultra-AIOps 企业知识共享平台 敏捷ITSM管理 数智化运营管理 数字化研发效能平台 电信业务端到端监控
混合多云管理 IDC运营管理 集约化综合网管 算网大脑 核心网运维工作台 IP运维工作台 家客业务运营支撑 政企业务运维支撑系统解决方案 CDN运维工作台 SDN控制器 电子运维管理平台
大模型MaaS平台 智能数据分析 IP网运维智能体 核心网运维智能体 知识增强 智能办公助手 智能研发
消息中台 5G消息CSP平台 渠道运营服务解决方案 一体化营销服务 短信网关
身份与访问控制解决方案 安全合规解决方案 安全威胁分析与预警解决方案 安全资产管理解决方案
特权帐号管理解决方案 一体化信息安全风险感知解决方案 安全基线管理解决方案 安全审计解决方案
安全运营管理解决方案 安全运行保障解决方案 网信办安全态势感知解决方案
泰岳安全中台解决方案 零信任安全解决方案 泰岳数据安全解决方案
AWS SMB上云服务 AWS DevOps服务 AWS架构优化服务 云原生应用开发服务 AWS账单服务 AWS上云迁移服务 AWS云上代维服务
5G通信解决方案 Nu-Comm融合通信系统 智慧园区解决方案
变电在线监测系统解决方案 变电站远程智能巡视系统解决方案 变电数字孪生站智能一体化解决方案 数字主变健康多元状态评估解决方案
社区警务便民小助手解决方案 智脑案情分析系统解决方案 警情数据分析平台解决方案
「中文词向量语料库」为北师大与北京神州泰岳软件股份有限公司人工智能联合实验室共同研发。
项目链接:https://github.com/Embedding/Chinese-Word-Vectors
该项目提供使用不同表征(稀疏和密集)、上下文特征(单词、n-gram、字符等)以及语料库训练的中文词向量(嵌入)。在这里,你可以轻松获得具有不同属性的预训练向量,并将它们用于各类下游任务。
此外,开发者还在该工具中提供了一个中文类比推理数据集 CA8 及其评估工具包,用户可以以此评估自己词向量的质量。
格式
本资源中的预训练词向量文件以文本格式存储。每一行包含一个单词及其词向量。每个值由空格分开。第一行记录元信息:第一个数字表示该单词在文件中的排序,第二个数字表示维度大小。
除了密集单词向量(以 SGNS 训练),该项目还提供了稀疏向量(以 PPMI 训练)。它们与 liblinear 格式相同,其中「:」前的数字代表维度索引,「:」后的数字表示值。
预训练中文词向量
基本设定
多领域词汇
中文词向量在不同的表征、上下文特征和语料库上进行了训练。
*该项目提供了汉字嵌入,因为古中文大多数汉字就是一个词。
多种共现信息
开发者发布了在不同的共现(co-occurrence)统计数据上的词向量。目标和上下文向量在相关的论文中一般称为输入和输出向量。
在这一部分中,我们可以获取词层面之上的任意语言单元向量。例如,汉字向量包含在词-汉字的上下文向量中。所有向量都在百度百科上使用 SGNS 训练。
表征
现有的词表征方法一般可分为两种,即密集型和稀疏型的词嵌入表征。SGANS 模型(word2vec 工具包中的模型)和 PPMI 模型分别是这两种表征的典型案例。SGNS 模型通过一个浅层神经网络学习低维度的密集向量,这也称为神经嵌入方法。PPMI 模型是一种稀疏的特征袋(bag-of-feature)表征方法,且它会使用正逐点互信息(PPMI)对特征进行加权。
上下文特征
三种上下文特征:单词、n-gram 和字符在词嵌入文献中很常用。大多数词表征方法本质上利用了词-词的共现统计,即使用词作为上下文特征(词特征)。受语言建模问题的启发,开发者将 n-gram 特征引入了上下文中。词到词和词到 n-gram 的共现统计都被用于训练 n-gram 特征。对于中文而言,字符(即汉字)通常表达了很强的语义。为此,开发者考虑使用词-词和词-字符的共现统计来学习词向量。字符级的 n-gram 的长度范围是从 1 到 4(个字符特征)。
除了词、n-gram 和字符或汉字以外,还有其它对词向量的属性具有重要影响的特征。例如,使用整个文本作为上下文特征能将更多的主题信息引入到词嵌入向量中,使用依存关系解析树作为上下文特征能为词向量添加语法信息等。本项目考虑了 17 种同现类型。
语料库
开发者做了大量工作来收集多个领域的语料库。所有的文本数据都通过删除 html 和 xml 标记进行了预处理。只有纯文本被保留并使用 HanLP(v_1.5.3) 进行词分割。语料库的详细信息如下:
所有的单词都被包含其中,包括低频词。
工具包
所有的词向量由 ngram2vec 工具包训练。ngram2vec 工具包是 word2vec 和 fasttext 工具包的超集合,其支持抽象上下文特征和模型。
ngram2vec:https://github.com/zhezhaoa/ngram2vec/ word2vec:https://github.com/svn2github/word2vec fasttext:https://github.com/facebookresearch/fastText
中文词类比基准
词向量的质量通常由类比问题任务进行评估。在该项目中,开发者使用了两个基准来评估。第一个是 CA-translated,其中大多数类比问题直接从英语基准中翻译得到。虽然 CA-translated 在很多中文词嵌入论文中被广泛应用,但它仅包含了三个语义问题和 134 个中文词。相对的,CA8 是专门为中文语言设计的。它包含了 17813 个类比问题,覆盖了综合的词法和语义关联。CA-translated、CA8 和它们的详细信息在 testets 文件夹中。
评估工具包
评估工具包在 evaluation 文件夹中。
运行以下代码可评估密集向量:
运行以下代码可评估稀疏向量:
北京师范大学-神州泰岳人工智能联合实验室揭牌
参考文献
如果要使用这些嵌入和 CA8 数据集,请引用开发者的论文:
Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.
本文转自:机器之心
作者:shenshen-hungry