skip-gram笔记 - 爱码网

skip-gram目的：给定一个单词，预测其它单词出现的概率。

模型基本组件：

one-hot vector： $w_i$ ，为中心节点的独热表示，大小为 $1\times V$ ， $V$ 为节点个数；
First matrix： $W_1$ ，第一个矩阵，大小为 $V\times d$ ，每一行表示一个节点的表示向量；
Second matrix： $W_2$ ，第二个矩阵，大小为 $d\times V$ ，每一列表示一个节点的表示向量；
Similarity vector： $s_c$ ，大小为 $1\times V$ ，其中元素表示两个节点的相似性，用内积来表示；
Softmax Function： $\frac{e^{(v_i, v_j)}}{\sum_{k=1}^{V}{e^{(v_i, v_j)}}}$ ，可以将向量变成一个和为1的概率分布，其中 $v_i$ 表示中心词 $i$ 的表示向量，大小为 $1\times d$ 。

预测过程
Step1： $v_i=w_i\times W_1$ ，得到中心词 $i$ 的表示向量，大小为 $1\times d$ ；
Step2： $s_c=v_i\times W_2$ ，这一步可以得到中心词 $i$ 与其它单词的相似性，值越大说明两个向量越相似；
Step3：Softmax( $s_c$ )，输出每个单词出现的概率，依据概率大小进行预测。

模型训练
假设：近邻的两个单词，其表示向量应该是相似的。
将所有邻近的单词对依次作为输入进行训练，以单词 $i$ 和单词 $j$ 为例，其向量表示分别为 $v_i$ 和 $v_j$ ，则可以通过最大化似然函数来训练模型，即最大化 $P(w_j|w_i)$ ，加上 $log$ ，并且最小化其负数，目标函数变为： $-log(P(w_j|w_i))$ 。因为

$P(w_j|w_i)=\frac{e^{(v_i, v_j)}}{\sum_{k=1}^{V}{e^{(v_i, v_j)}}}$

所以，模型优化目标为：

min $\mathcal{L} =-log(\frac{e^{(v_i, v_j)}}{\sum_{k=1}^{V}{e^{(v_i, v_j)}}})$

可变形为：

min $\mathcal{L} = -[(v_i, v_j) - log(\sum_{k=1}^{V}{e^{(v_i, v_j)}})]$

上式更新策略：采用梯度下降法，分别对 $v_i$ 和 $v_j$ 求偏导，具体为：

更新 $v_i$ ：

$\frac{d\mathcal{L}}{dv_i}=-[v_j-\frac{\sum_{k=1}^{V}(e^{(v_i, v_k)}\times v_k)}{\sum_{k=1}^{V}(e^{(v_i, v_k)}}]$

设学习率为 $r_1$ ，则 $v_i$ 的更新规则为：

$v_i=v_i-r_1\times(-[v_j-\frac{\sum_{k=1}^{V}(e^{(v_i, v_k)}\times v_k)}{\sum_{k=1}^{V}(e^{(v_i, v_k)}}])$

更新 $v_j$ ：

$\frac{d\mathcal{L}}{dv_j}=-[v_i-v_i\times\frac{e^{(v_i, v_j)}}{\sum_{k=1}^{V}e^{(v_i, v_k)}}]$

设学习率为 $r_2$ ，则 $v_j$ 的更新规则为：

$v_j=v_j-r_2\times(-[v_i-v_i\times\frac{e^{(v_i, v_j)}}{\sum_{k=1}^{V}e^{(v_i, v_k)}}])$

存在问题
模型训练更新 $W_1$ 和 $W_2$ 时计算量太大，特别是每一次 $\sum_{k=1}^{V}e^{(v_i, v_k)}$ 这一项的计算，如果训练的样本数特别大的话，这个计算量过大。

自己的推导过程：
skip-gram笔记
参考文章：
直观理解skip-gram模型
 skip-gram,单词向量化算法及其数学原理