Probabilistic FastText for Multi-Sense Word Embeddings

pages 1–11, July 2018 Association for Computational Linguistics

多义词的概率快文本向量

 

目录

Probabilistic FastText for Multi-Sense Word Embeddings

多义词的概率快文本向量

1.概率子词的表示

2.词之间的相似度测量

3.损失函数

4.能量简化

5.词抽样

实验

1训练细节

2定性评估 - 最近邻

3词相似度评估

4外语嵌入评估

5定性评估 - 子词分解

组件的数量


 

传统的WORD2VEC 需要预定义的字典, 就不能表示一些少见的词。

FastText是character-level的词向量, 每一个词都有一组向量,每个向量表示n-gram.

这样就可以把词之间的共同根给联系起来。

还有一个方法是用概率分布来表示词。例如高斯分布。(高斯分布即正态分布,高斯混合即多个正态分布混合在一起,其中每个正态分布即为一个组件,GMM即高斯混合模型,是一种聚类算法。只要别把正态分布想当然成一维的就行)

Probabilistic FastText(PFT)就是基于概率的character-level的词向量。本文分别用了一个高斯(PFT-G)和一个混合密度高斯(PFT-GM)来表示词。

1.概率子词的表示

 

每一个词都表示成拥有K个组件的高斯混合。

一个词w关联一个密度函数Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

其中Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)平均向量Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)协方差矩阵Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)组件的概率 加起来等于1。

平均向量Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

其中Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)是n-gram g的关联向量,Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)是词w的字典表示,Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)是词w的一组n-gram

例如: 3-grams:<be, bea, eau, aut, uti, tif, ful, ul>

           4-grams: <bea, beau .., iful, ful>

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

图1a表示平均向量, 图1b和图1c表示本文的俩个模型(PFT-G)和(PFT-GM)

1a:一个高斯组件和它的子词结构,黑箭头表示最终平均向量,灰箭头表示n-gram向量

1b:PFT-G每一个高斯组件的平均向量都是一个子词向量

1c:PFT-GM对于每一个高斯混合,一个组件的平均向量是从子词向量得到的,其他的组件是基于字典向量的(减少子词结构的限制,促进含义发现的独立性..)。

2.词之间的相似度测量

用(?)Hilbert space Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)中一般的点积,来定义两个词 f 和 g 的能量

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

在高斯混合模型中

     Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记) ,   

     Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记).

即 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

其中Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)是词f的组件i 和 词g 的组件j 的偏能量,如下图

 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

3.损失函数

模型的参数是 每个词的 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记) 和 每个n-gram的 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

We train the model by pushing the energy of a true context pair w and c to be higher than the negative context pair w and n by a margin m. (???)

 

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

4.能量简化

用每一个组件的球面协方差来简化能量方程:

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

其中 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记) 是一个等式3 中逆协方差的比例(scale)

如果协方差矩阵是球面的并且对所有的组件是相同的 (???), 则 等式5 和等式3 是相等的

5.词抽样

给定一个词w, 为了生成它的文本词 c ,本文选择一个固定长度 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记) 的文本窗中的邻近词。

本文采用了(Mikolov et al.(2013b))的类似方法。(此处需要一个连接额)

该方法可以减小像‘a’, 'the', 'to’等词的重要性。

一个词w 有概率:

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

其中Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)是词w 在文本中的频率, t 是频率阈值。

一个负的文本词 用 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记) 来选择。其中Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)是词w的单字组的概率(unigram probability)。3/4同样可以减少高频词的重要性将训练重点集中在其他低频词上。

实验

1训练细节

English: concatenation of UKWAC and WACKYPEDIA

foreign: FRWAC (French), DEWAC (German), ITWAC (Italian)

现在英语中调参,再适用到外语中。

等式4中的m : Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

等式5中的Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

学习率Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

高斯组件 K = 2

文本窗长度 Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)  = 10

子抽样阈值 t = Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

n-gram: n= 3, 4, 5, 6

2定性评估 - 最近邻

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

3词相似度评估

字典级密度嵌入和FASTTEST的比较

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

多原型模型的比较

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

4外语嵌入评估

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

5定性评估 - 子词分解

Probabilistic FastText for Multi-Sense Word Embeddings(论文笔记)

组件的数量

K>2 时并不会整体上提高词的近似结果。

K=2 时会比 K=1 学习到更多的表示。 

相关文章:

  • 2021-10-27
  • 2021-12-28
  • 2021-08-21
  • 2021-07-02
  • 2021-04-19
  • 2021-12-05
  • 2021-10-14
猜你喜欢
  • 2021-12-12
  • 2021-05-11
  • 2021-09-29
  • 2021-06-10
  • 2021-07-11
  • 2022-12-23
  • 2022-01-05
相关资源
相似解决方案