Glove模型笔记 - 爱码网

Glove

优点：融合了矩阵分解Latent Semantic Analysis (LSA)的全局统计信息和local context window优势。融入全局的先验统计信息，可以加快模型的训练速度，又可以控制词的相对权重。

模型

词向量模型：
$w_{i}^{T} \tilde{w}_{j}+b_{i}+\tilde{b}_{j}=\log \left(X_{i j}\right)$
Ｌoss function：
$J=\sum_{i, j}^{N} f\left(X_{i, j}\right)\left(v_{i}^{T} v_{j}+b_{i}+b_{j}-\log \left(X_{i, j}\right)\right)^{2}$

原理

共现矩阵

共现矩阵为 $X$ ，其中的元素为 $X_{i,j}$ ，表示词汇 $j$ 出现在词汇 $i$ 上下文中的次数总和，这个 $j$ 由两个单词的上下文窗口距离决定

$X_i$ 表示出现在 $i$ 上下文的所有词汇的总数。然后** $P_{ij}＝\frac{X_{ij}}{X_i}＝P(j|i)$ **表示词汇 $j$ 出现的词汇 $i$ 上下文的概率

Glove模型笔记

这个比率能够更好地区分相关词（solid 和 gas）与不相关词（ice和fashion），并且还能够更好地区分（discriminate）两个相关词。ratio取决于三个单词 $i,j,k$ 。

构建词向量

先假设有一个词向量模型可以代表这个比例
$F\left(w_{i}, w_{j}, \tilde{w}_{k}\right)=\frac{P_{i k}}{P_{j k}}$
其中 $w\in R^d$ 是词向量， $\hat{w}_k$ 是单独的上下文词向量。等式右侧是从预料库中获得

如何确定函数Ｆ呢。首先由于向量空间本质上是线性的，并且我们希望Ｆ能够在词向量空间中呈现上面说的比率信息（相似性）。而用向量差异是最自然的方法。于是可以得到
$F\left(w_{i}-w_{j}, \tilde{w}_{k}\right)=\frac{P_{i k}}{P_{j k}}$

然后可以看到左边Ｆ的参数是向量，右边是标量，为了使得Ｆ的结果也是标量，所以Ｆ的参数可以采用内积的形式

于是有
$F\left(\left(w_{i}-w_{j}\right)^{T} \tilde{w}_{k}\right)=\frac{P_{i k}}{P_{j k}}$
再然后，因为在共现矩阵中，可以任意划分为中心词或上下文单词，所以要保证 $w \leftrightarrow \tilde{w}$ 和 $X \leftrightarrow X^{T}$ 的时候模型保持对称性。于是有
$F\left(\left(w_{i}-w_{j}\right)^{T} \tilde{w}_{k}\right)=\frac{F\left(w_{i}^{T} \tilde{w}_{k}\right)}{F\left(w_{j}^{T} \tilde{w}_{k}\right)}$
其中
$F\left(w_{i}^{T} \tilde{w}_{k}\right)=P_{i k}=\frac{X_{i k}}{X_{i}}$
由上面的式子，可以得到Ｆ（x）要等于exp(x)才满足条件，所以可以知道Ｆ＝exp

于是有
$w_{i}^{T} \tilde{w}_{k}=\log \left(P_{i k}\right)=\log \left(X_{i k}\right)-\log \left(X_{i}\right)$

有 $log(X_i)$ 在，左边有对称性，但是右边没有， $w^T_iw_k=w_k^Tw_i$ 但是 $log(P_{ik})不等于log(P_{ki})$ 。又因为 $log(X_i)$ 独立于k，所以让 $w_i$ 吸收掉 $log(X_i)$ 作为偏置项 $b_i$

再添加一个偏置项给 $\tilde{b_k}$ 给 $w_k$ 保持对称性。

于是有
$log(X_{i,j})= w^T_i\tilde{w_j}+b_i+\tilde{b_j}$
于是代价函数如下：

最小二乘
$J=\sum\limits_{i,j=1}^V (w^T_i\tilde{w_j}+b_i+\tilde{b_j}-logX_{ij})^2$
其中V是单词的总个数。但是上述目标函数还有一个问题，就是无论单词i和单词k之间出现的频率多少，都作为一个样本进行训练。那么对于那么单词i和单词k之间不常见的组合，或偶尔出现的组合，也进行拟合，其实这些拟合的是一些噪声，这显然不利于模型的鲁棒性/健壮性（robust）。怎么办呢？最简单的办法就来了，让那些出现次数较少的组合权重低一些。

于是最后有了
$J=\sum\limits_{i,j=1}^V f(X_{ij})(w^T_i\tilde{w_j}+b_i+\tilde{b_j}-logX_{ij})^2$

而权重函数应该满足

f(0)=0f(0)=0。
f(x)递增，以保证罕见的组合不会给与过多的权重。
对于较大的x值，f(X)应该比较小，以保证频繁出现的组合不会给过多的权重。

根据原则可得到如下函数：
$f(x)=\left\{\begin{array}{cc} \left(x / x_{\max }\right)^{\alpha} & \text { if } x<x_{\max } \\ 1 & \text { otherwise } \end{array}\right.$

论文作者的实验结果：
Glove模型笔记

待解决问题：homomorphism

https://www.zhihu.com/search?type=content&q=glove%E5%90%8C%E6%80%81

对比word2vec

本质是count based 对比 prediction

Glove模型笔记

参考资料

理解ＧloVe模型

GloVe和word2vec

川陀学者