现有的词表征方法一般可分为两种，即密集型和稀疏型的词嵌入表征。SGANS 模型（word2vec 工具包中的模型）和 PPMI 模型分别是这两种表征的典型案例。SGNS 模型通过一个浅层神经网络学习低维度的密集向量，这也称为神经嵌入方法。PPMI 模型是一种稀疏的特征袋（bag-of-feature）表征方法，且它会使用正逐点互信息（PPMI）对特征进行加权。

上下文特征

三种上下文特征：单词、n-gram 和字符在词嵌入文献中很常用。大多数词表征方法本质上利用了词-词的共现统计，即使用词作为上下文特征（词特征）。受语言建模问题的启发，开发者将 n-gram 特征引入了上下文中。词到词和词到 n-gram 的共现统计都被用于训练 n-gram 特征。对于中文而言，字符（即汉字）通常表达了很强的语义。为此，开发者考虑使用词-词和词-字符的共现统计来学习词向量。字符级的 n-gram 的长度范围是从 1 到 4（个字符特征）。

除了词、n-gram 和字符或汉字以外，还有其它对词向量的属性具有重要影响的特征。例如，使用整个文本作为上下文特征能将更多的主题信息引入到词嵌入向量中，使用依存关系解析树作为上下文特征能为词向量添加语法信息等。本项目考虑了 17 种同现类型。

语料库

开发者做了大量工作来收集多个领域的语料库。所有的文本数据都通过删除 html 和 xml 标记进行了预处理。只有纯文本被保留并使用 HanLP(v_1.5.3) 进行词分割。语料库的详细信息如下：

所有的单词都被包含其中，包括低频词。

工具包

所有的词向量由 ngram2vec 工具包训练。ngram2vec 工具包是 word2vec 和 fasttext 工具包的超集合，其支持抽象上下文特征和模型。

ngram2vec：https://github.com/zhezhaoa/ngram2vec/ word2vec：https://github.com/svn2github/word2vec fasttext：https://github.com/facebookresearch/fastText

中文词类比基准

词向量的质量通常由类比问题任务进行评估。在该项目中，开发者使用了两个基准来评估。第一个是 CA-translated，其中大多数类比问题直接从英语基准中翻译得到。虽然 CA-translated 在很多中文词嵌入论文中被广泛应用，但它仅包含了三个语义问题和 134 个中文词。相对的，CA8 是专门为中文语言设计的。它包含了 17813 个类比问题，覆盖了综合的词法和语义关联。CA-translated、CA8 和它们的详细信息在 testets 文件夹中。

评估工具包

评估工具包在 evaluation 文件夹中。

运行以下代码可评估密集向量：

运行以下代码可评估稀疏向量：

北京师范大学-神州泰岳人工智能联合实验室揭牌

参考文献

如果要使用这些嵌入和 CA8 数据集，请引用开发者的论文：

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.

本文转自：机器之心

作者：shenshen-hungry

软件与信息技术服务-ICT运营管理

数智化新IT运营

数字化转型

智能中台

信息安全管理

身份与访问安全

计算环境安全

网络与通讯安全

安全管理与运营

数据安全

云增值服务

云安全与安全云

软件与信息技术服务-物联网与通信

专网通信

安防+管廊

智慧电力

智慧显示

软件与信息技术服务-人工智能与大数据

智慧语义

智能客服

手机游戏

手游原创

软件与信息技术服务-ICT运营管理

数智化新IT运营

数字化转型

自智网络

AI大模型应用

融合通信

信息安全管理

运营商

金融

交通

政府

医疗

航空航天

能源

公安

全行业

云增值服务

软件与信息技术服务-物联网与通信

专网通信

智慧电力

工业互联网

智慧安防

软件与信息技术服务-人工智能与大数据

智慧政务

智能催收

智能客服

Chinese Word Vectors：目前最全的中文预训练词向量集合