Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

Probabilistic FastText for Multi-Sense Word Embeddings

pages 1–11, July 2018 Association for Computational Linguistics

多义词的概率快文本向量

Probabilistic FastText for Multi-Sense Word Embeddings

传统的WORD2VEC 需要预定义的字典，就不能表示一些少见的词。

FastText是character-level的词向量，每一个词都有一组向量，每个向量表示n-gram.

这样就可以把词之间的共同根给联系起来。

还有一个方法是用概率分布来表示词。例如高斯分布。（高斯分布即正态分布，高斯混合即多个正态分布混合在一起，其中每个正态分布即为一个组件，GMM即高斯混合模型，是一种聚类算法。只要别把正态分布想当然成一维的就行）

Probabilistic FastText（PFT）就是基于概率的character-level的词向量。本文分别用了一个高斯(PFT-G)和一个混合密度高斯（PFT-GM）来表示词。

1.概率子词的表示

每一个词都表示成拥有K个组件的高斯混合。

一个词w关联一个密度函数 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

其中 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）是平均向量，是协方差矩阵，是组件的概率 加起来等于1。

平均向量： Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

其中 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）是n-gram g的关联向量，是词w的字典表示，是词w的一组n-gram

例如： 3-grams:<be, bea, eau, aut, uti, tif, ful, ul>

4-grams: <bea, beau .., iful, ful>

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

图1a表示平均向量，图1b和图1c表示本文的俩个模型（PFT-G）和（PFT-GM）

1a:一个高斯组件和它的子词结构，黑箭头表示最终平均向量，灰箭头表示n-gram向量

1b:PFT-G每一个高斯组件的平均向量都是一个子词向量

1c:PFT-GM对于每一个高斯混合，一个组件的平均向量是从子词向量得到的，其他的组件是基于字典向量的（减少子词结构的限制，促进含义发现的独立性..）。

2.词之间的相似度测量

用（？）Hilbert space Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）中一般的点积，来定义两个词 f 和 g 的能量

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

在高斯混合模型中

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记） ,

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记） .

即 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

其中 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）是词f的组件i 和词g 的组件j 的偏能量，如下图

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

3.损失函数

模型的参数是每个词的和每个n-gram的 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）。

We train the model by pushing the energy of a true context pair w and c to be higher than the negative context pair w and n by a margin m. （？？？）

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

4.能量简化

用每一个组件的球面协方差来简化能量方程：

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

其中 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）是一个等式3 中逆协方差的比例（scale）

如果协方差矩阵是球面的并且对所有的组件是相同的（？？？），则等式5 和等式3 是相等的

5.词抽样

给定一个词w, 为了生成它的文本词 c ，本文选择一个固定长度 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）的文本窗中的邻近词。

本文采用了（Mikolov et al.(2013b)）的类似方法。（此处需要一个连接额）

该方法可以减小像‘a’, 'the', 'to’等词的重要性。

一个词w 有概率：

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

其中 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）是词w 在文本中的频率， t 是频率阈值。

一个负的文本词用 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）来选择。其中是词w的单字组的概率（unigram probability）。3/4同样可以减少高频词的重要性将训练重点集中在其他低频词上。

实验

1训练细节

English: concatenation of UKWAC and WACKYPEDIA

foreign: FRWAC (French), DEWAC (German), ITWAC (Italian)

现在英语中调参，再适用到外语中。

等式4中的m : Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

等式5中的 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）：

学习率 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）：

高斯组件 K = 2

文本窗长度 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记） = 10

子抽样阈值 t = Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

n-gram: n= 3, 4, 5, 6

2定性评估 - 最近邻

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

3词相似度评估

字典级密度嵌入和FASTTEST的比较

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

多原型模型的比较

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

4外语嵌入评估

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

5定性评估 - 子词分解

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记）

组件的数量

K>2 时并不会整体上提高词的近似结果。

K=2 时会比 K=1 学习到更多的表示。