word2vec 模型的详细数学推导和直观理解

word2vec作为一个优秀的用于产生词向量开源工具，在自然语言处理和计算机视觉领域有着很多应用，实践中效果相当好，但是很多使用者往往知其然不知其所以然。本文对word2vec Parameter Learning Explained这篇文章进行翻译和解读。深入浅出地剖析了词嵌入模型的参数学习过程，给出了详细的数学推导以及直观的解释。看完对word2vec会有一个更深层次的理解，有利于更好地使用和改进这一工具。

说明：读本文之前，需要对神经网络及后向传播有一定了解。另外，对word2vec需要有一个大概的了解。

1 连续词袋模型（CBOW）

1.1 单个单词上下文

从一个最简单的连续词袋模型开始，假设上下文只有一个单词，即输入一个目标单词，预测一个单词（而不是多个）。
下图是在上述定义之下的网络模型。
word2vec 模型的详细数学推导和直观理解
上图中，词汇量大小为 $V$ ，隐藏层大小为 $N$ ，各层直接都是全连接。输入是一个one-hot向量，即对于一个给定的上下文单词， $V$ 个元素 ${x_{1}, . . . x_{V}}$ 中只有一个为1，其他均为0。

解释：每个输入的向量 ${x_{1}, . . . x_{V}}$ 有 $V$ 个元素，一个元素 $x_{k}$ 代表一个单词。如果向量表示第 $k$ 个单词， $x_{k}$ 为1，其他元素均为0。

为了让大家有一个更直观具体的理解，这里给出一个具体的例子，图中假设 $V = 6$ ， $N = 3$ 。
word2vec 模型的详细数学推导和直观理解

输入层和隐藏层之间的权重可以用一个 $V \times N$ 矩阵 $W$ 表示， $W$ 的每一行是一个 $N$ 维的向量 $v_{w}$ ，表示输入层对应的单词， $W$ 的第 $i$ 行用 $v_{w}^{T}$ 表示，给定一个上下文（在这个模型中即为一个单词），假设 $x_{k} = 1, x_{k^{'}} = 0, k^{'} \neq k$ ，有以下式子：

h = W^{T} x = W_{k, .}^{T} := v_{w_{I}} (1)

上式本质上是将

W

的第

k

行复制给

h

。

v_{w_{I}}

是输入单词

w_{I}

的向量表示。这表示隐藏层的**函数是一个简单的线性函数（比如，直接将输入的加权和传递到下一层）。
隐藏层和输出层之间，有一个不同的权重矩阵

W^{'} = {w_{i j}^{'}}

，这是一个

N \times V

矩阵。使用这些权重，我们可以计算词汇表（

V

个单词组成的词汇表）中每一个单词的分值

u_{j}

：

u_{j} = v_{w_{j}}^{' T} h (2)

其中，

v_{w_{j}}^{'}

是矩阵

W^{'}

的第

j

列。

解释：输出共有 $V$ 个元素，每一个元素由 $W$ 的第 $j$ 列和 $h$ 相乘得到（加权和），即为 $u_{j}$ 。

接着我们使用softmax，一个log线性分类器模型，以得到每个单词的后验概率，这是一个多项式分布：

p (w_{j} | w_{I}) = y_{j} = \frac{e x p (u_{j})}{\sum_{j^{'} = 1}^{V} e x p (u_{j^{'}})} (3)

其中，

y_{j}

是输出层的第

j

个元素。
将（1）式和（2）式代入（3）式有：

p (w_{j} | w_{I}) = y_{j} = \frac{e x p (v_{w_{j}}^{' T} v_{w_{I}})}{\sum_{j^{'} = 1}^{V} e x p (v_{w_{j}}^{' T} v_{w_{I}})} (4)

注意

v_{w}

和

v_{w}^{'}

是词语

w

的两个表示。

v_{w}

来自输入层和隐藏层间的权重矩阵

W

的行，

v_{w} ‘^{'}

来自隐藏层和输出层间的权重矩阵

W^{'}

的列。在接下来的分析中，我们称

v_{w}

为词语

w

的输入向量，称

v_{w}^{'}

为词语

w

的输出向量。

注意：在一次训练中，输入向量和输出向量不是同一个向量，不是代表同一个词语，输入的是上下文词语，输出的是由上下文推导而来的词语。

隐藏层到输出层的权重更新等式

先说更新思路，目标是最大化 $p (w_{O} | w_{I})$ ，即要最小化损失函数 $E$ 。因此找到权重关于 $E$ 的公式，求偏导得到梯度，利用梯度更新权重，使得 $E$ 尽快下降。

尽管实际进行这种权重更新计算是不切实际的（下文有解释），但我们探究这个源头有利于理解没用任何技巧的初始模型。
我们训练的目标是为了最大化式（4）：

max p (w_{O} | w_{I}) = max y_{j *} (5) = max \log y_{j *} (6) = u_{j *} - \log \sum_{j^{'} = 1}^{V} \exp (u_{j^{'}}) := - E (7)

解释：式子（7）由对式（6）代入式（2）得到

此处， $E = - \log (w_{O} | w_{I})$ 是我们的损失函数（我们要最小化 $E$ ）, $j *$ 是输出层实际输出的单词的指标。注意这个损失函数可以理解为两个概率分布间的交叉熵度量的特例。
现在来推导隐藏层和输出层间的权重。对 $E$ 进行求关于第 $j$ 个输出元素 $u_{j}$ 的导数，可得：

\frac{\partial E}{\partial u_{j}} = y_{j} - t_{j} := e_{j} (8)

解释：对（7）式求导可得

其中， $t_{j} = 1 (j = j *)$ ，仅当第 $j$ 个元素是实际输出单词时， $t_{j} = 1$ ，其他情况 $t_{j} = 0$ ，注意现在这个梯度是输出层的预测错误。
接着对 $E$ 进行求关于 $w_{i j}^{'}$ 的偏导，以得到隐藏层到输出层权重的梯度：

\frac{\partial E}{\partial w_{i j}^{'}} = \frac{\partial E}{\partial u_{j}} . \frac{\partial u_{j}}{\partial w_{i j}^{'}} = e_{j} . h_{i} (9)

解释： $\frac{\partial u_{j}}{\partial w_{i j}^{'}}$ 根据公式（2）求导

使用随机梯度下降法，更新权重：

w_{i j}^{' (n e w)} = w_{i j}^{' (o l d)} - η . e_{j} . h_{i} (10)

或者

v_{w_{j}}^{' (n e w)} = v_{w_{j}}^{' (o l d)} - η . e_{j} . h j = 1, 2, . . . V (11)

解释：（10）式和（11）式的区别在于， $w_{i j}^{'}$ 是 $W^{'}$ 的单个元素， $v_{w_{j}}^{'}$ 是 $W^{'}$ 的一列元素。（10）式是单个单个元素更新，（11）式是一列一列更新。

其中， $η > 0$ 是学习率， $e_{j} = y_{j} - t_{j}$ ， $h_{i}$ 是隐藏层的第 $i$ 个元素， $v_{w_{j}}^{'}$ 是 $w_{j}$ 输出向量。注意这个更新等式需要将词汇表中的每一个可能单词都过一遍，检查输出概率 $y_{j}$ 和期望的输出 $t_{j}$ （0或者1）。如果 $y_{j} > t_{j}$ （高估），则我们要从 $v_{w_{j}}^{'}$ 减少一定比例的隐藏层向量 $h$ (比如 $v_{w_{I}}$ )，这使得 $v_{w_{j}}^{'}$ 远离 $v_{w_{I}}$ 。当 $y_{j} < t_{j}$ （低估，这种情况仅当 $t_{j} = 1$ 时出现，例如， $w_{j} = w_{O}$ ），则我们要从增加一定比例的隐藏层向量 $h$ 到 $v_{w_{O}}^{'}$ ，这使得 $v_{w_{O}}^{'}$ 靠近 $v_{w_{I}}$ 。如果 $y_{j}$ 非常靠近 $t_{j}$ ，根据更新等式，权重只有非常小的变动。这里要再次强调一下， $v_{w}$ （输入向量）和 $v_{w}^{'}$ （输出向量）是单词 $w$ 的两个不同向量表示。

说明：这里说的远近，是使用内积作为衡量标准，而不是欧式距离。
另外， $v_{w_{O}}^{'}$ 和 $v_{w_{I}}$ 代表的不是同一个单词，是目标单词及其上下文，经过模型的训练，单词及其上下文的向量相似性会提高。

为了更好理解权重更新过程，同样可以看这张图，图中假设 $V = 6$ ， $N = 3$ 。
word2vec 模型的详细数学推导和直观理解

输出层到隐藏层的权重更新等式

得到 $W^{'}$ 的更新等式后，同理可以推导得到 $W$ 的更新等式。对 $E$ 在输出层到隐藏层之间求导得到：

\frac{\partial E}{\partial h_{i}} = \sum_{j = 1}^{V} \frac{\partial E}{\partial u_{j}} . \frac{\partial u_{j}}{\partial h_{i}} = \sum_{j = 1}^{V} e_{j} . w_{i j}^{'} := E H_{i} (12)

解释：（12）式由（2）式和（8）式求导可以得到。

此处， $h_{i}$ 是隐藏层输出的第 $i$ 个元素， $u_{j}$ 在式（2）中定义，是输出层网络输出的第 $j$ 个元素， $e_{j} = y_{j} - t_{j}$ 是输出层第 $j$ 个单词的预测误差。 $E H$ 是一个 $N$ 维向量，是单词表所有单词的的输出向量和其预测误差的加和。
接着要对 $E$ 关于 $W$ 求导。首先，前文说过，输入层到隐藏层间是线性关系，扩展式（1）可以得到：

h_{i} = \sum_{k = 1}^{V} x_{k} . w_{k i} (13)

由上式这个关系以及式（13）就可以得到

E

关于

W

的导数：

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial h_{i}} . \frac{\partial h_{i}}{\partial w_{k i}^{'}} = E H_{i} . x_{k} (14)

上式可以表示为

x

和

E H

的张量：

\frac{\partial E}{\partial W} = x \otimes E H = x E H^{T} (15)

经过上式可以得到一个

V \times N

矩阵。由于

x

只有一个元素是非零的，所以

\frac{\partial E}{\partial W}

只有一行为非零（这点由张量的定义可以轻易得到），这一行就是

E H^{T}

，一个

N

维向量。由此可以得到以下的更新等式：

v_{w_{I}}^{(n e w)} = v_{w_{I}}^{(o l d)} - η E H^{T} (16)

其中，

v_{w_{I}}

是

W

的一行，是唯一一个上下文的输入向量，也是唯一一个梯度非零的行。

W

的其他行都保持不变，因为梯度为零。
直观来说，由于向量

E H

是词汇表中所有单词的加权输出向量的和（权重为预测误差

e_{j} = y_{j} - t_{j}

），我们可以理解式（16）为将词汇表中的每一个输出向量的一部分增加到上下文词语的输入向量。如果，在输出层，单词

w_{j}

的成为输出单词的概率被高估（

y_{j} > t_{j}

）那么上下文词语

w_{I}

的输入向量则要远离输出向量

w_{j}

；反之，则要接近。如果

w_{j}

的概率非常接近所要的，则对

w_{I}

的改动特别小。输入向量

w_{I}

的变动由词汇表中所有单词的向量的预测误差决定，预测误差越大，单词对上下文单词的输入向量的影响越大。
通过遍历整个词料库中上下文-目标单词对进行模型参数的迭代更新，每个向量的影响被累加。想象一下，单词

w

的输出向量被它的共生近邻的上下文的输入向量前前后后“拉扯”着，就像词

w

的向量和它多个近邻的向量间有着物理绳索一样。类似的，一个输入向量也可以看做被它的多个输出向量“拉扯”着。这个解释与重力，或者力引导分布图类似。每个想象绳索平衡时的长度跟相关词语对的共生强度以及学习率有关。经过多次迭代，输入和输出向量的相关位置最终变得稳定。

1.2 多词语上下文

下图是有多个上下文单词的CBOW模型的图示。
word2vec 模型的详细数学推导和直观理解
计算隐藏层输出的时，不再像单词语上下文那样，直接复制上下文单词的输入向量，而是取所有上下文单词输入向量的平均值，然后将输入-隐藏层权重矩阵和这个平均值的乘积作为输出：

h = \frac{1}{C} W^{T} (x_{1} + x_{2} + . . . + x_{C}) (17) = \frac{1}{C} (v_{w 1} + v_{w 2} + . . . + v_{w C})^{T} (18)

其中，

C

是输入上下文单词的总数，

w_{1}, w_{2}, . . ., w_{C}

是上下文单词，

v_{w}

是单词

w

的输入向量，损失函数如下：

E = - \log p (w_{O} | w_{I, 1}, . . ., w_{I, C}) (19) = - u_{j *} + \log \sum_{j^{'} = 1}^{V} \exp (u_{j^{'}}) (20) = - v_{w O}^{' T} . h + \log \sum_{j^{'} = 1}^{V} \exp (v_{w j}^{' T} . h) (21)

这个表达式与优化单词语上下文模型的式（7）类似，除了

h

不同，

h

如式（18）定义，不再是式（1）那个定义。
隐藏层到输出层的权重更新等式和单词语上下文模型的更新等式一样，复制过来如下：

v_{w_{j}}^{' (n e w)} = v_{w_{j}}^{' (o l d)} - η . e_{j} . h j = 1, 2, . . . V (22)

，注意，对于每一个训练样本，我们要将这个等式应用到隐藏层-输出层间权重矩阵的每一个元素。
输入层到隐藏层间的权重更新等式跟式（16）类似，只是现在需要将下面这个等式应用到每一个输入的上下文单词

w_{I, c}

：

v_{w_{I, c}}^{(n e w)} = v_{w_{I, c}}^{(o l d)} - \frac{1}{C} η E H^{T} c = 1, 2, . . . C (23)

这里，

v_{w_{I, c}}

是输入上下文的第

c

个单词的输入向量，

η

是学习率，

\frac{\partial E}{\partial h_{i}}

由式（12）得到。更新等式的直观理解和式（16）一样。

2 Skip-Gram 模型

skip-gram模型由Mikolov等人提出。下图给出了skip-gram模型的图示。
word2vec 模型的详细数学推导和直观理解
skip-gram模型正好与CBOW模型相反。目标单词现在在输入层，上下文单词在输出层。
我们依然用 $v_{w_{I}}$ 表示输入层的唯一一个单词的输入向量。因此我们可以像（1）一样定义隐藏层输出 $h$ ：

h = W^{T} x = W_{k, .}^{T} := v_{w_{I}} (24)

这说明

h

只是简单地复制输入-隐藏层的权重矩阵

W

的一行（与输入单词

w_{I}

相关的一行）。
在输出层，不再是一个多项式分布，而是输出

C

个多项式分布。每一个输出用同一个隐藏层-输出层权重矩阵计算：

p (w_{c, j} = w_{O, c} | w_{I}) = y_{c, j} = \frac{e x p (u_{c, j})}{\sum_{j^{'} = 1}^{V} e x p (u_{j}^{'})} (25)

其中，

w_{c, j}

是输出层第

c

个panel的第

j

个单词；

w_{O, c}

是实际输出上下文单词中的第

c

个；

w_{I}

是唯一的输入单词；

y_{c, j}

是输出层第

c

版的第

j

个输出，

u_{j}

是输出层第

c

个panel的第

j

个单元的网络输入。由于输出层的所有panel共享权重，因此有：

u_{c, j} = u_{j} = v_{w_{j}}^{' T} h c = 1, 2, . . ., C (26)

其中，

v_{w_{j}}^{'}

是词汇表的第

j

个单词

w_{j}

的输出向量，

v_{w_{j}}^{'}

同时也是隐藏层-输出层权重矩阵

W^{'}

的一列。
参数更新等式的推导和单一单词上下文的CBOW模型类似。损失函数变为：

E = - \log p (w_{O, 1}, w_{O, 2}, . . ., w_{O, C} | w_{I}) (27) = - \log \prod_{c = 1}^{C} \frac{\exp (u_{c, j_{c}^{*}})}{\sum_{j^{'} = 1}^{V} \exp (u_{j^{'}})} (28) = - \sum_{c = 1}^{C} u_{j_{c}^{*}} + C \log \sum_{j^{'} = 1}^{V} \exp (u_{j^{'}}) (29)

其中，

u_{j_{c}^{*}}

是期望输出的第

c

个上下文单词在词汇表中的下标。
对

E

关于输出层每一个panel中的每一个单元的网络输出

u_{c, j}

求偏导：

\frac{\partial E}{\partial u_{c, j}} = y_{c, j} - t_{c, j} := e_{c, j} (30)

上式得到单元的预测误差，与（8）中一样。为了方便说明，我们定义一个

V

维向量

E I = {E I_{1}, . . ., E I_{V}}

作为所有上下文单词的预测误差之和：

E I_{j} = \sum_{c = 1}^{C} e_{c, j} (31)

接着，对

E

关于隐藏层到输出层的权重矩阵

W^{'}

求偏导：

\frac{\partial E}{\partial w_{i j}^{'}} = \sum_{c = 1}^{C} \frac{\partial E}{\partial u_{c, j}} . \frac{\partial u_{c, j}}{\partial w_{i j}^{'}} = E I_{j} . h_{i} (32)

由上式我们可以得到隐藏层到输出层的权重矩阵

W^{'}

的更新等式：

w_{i j}^{' (n e w)} = w_{i j}^{' (o l d)} - η . E I_{j} . h_{i} (33)

或者

v_{w_{j}}^{' (n e w)} = v_{w_{j}}^{' (o l d)} - η . E I_{j} . h j = 1, 2, . . . V (34)

更新等式的直观理解与式（11）一样，除了预测误差是输出层所有上下文单词的误差的加和。注意，对于每一个样本，我们要应用这个更新等式到隐藏-输出层权重矩阵的每一个元素。
输出-隐藏层的更新等式推导和（12）到（16）一样，除了

e_{j}

变为

E I_{j}

。这里直接给出更新等式：

v_{w_{I}}^{(n e w)} = v_{w_{I}}^{(o l d)} - η E H^{T} (35)

其中，

E H

是一个

N

维向量，每个元素定义为：

E H_{i} = \sum_{j = 1}^{V} E I_{j} . w_{i, j}^{'} (36)

（35）的直观理解和（16）一样。

关于模型优化

目前我们讨论的模型（bigram模型，CBOW和skip-gram）都是它们的原始模式，没有应用任何优化技巧。
对于这些模型来说，词汇表中的每一个单词有两个向量表示：输入向量 $v_{w}$ 和输出向量 $v_{w}^{'}$ 。学习输入向量很轻易，但是学习输出向量花费巨大。从更新等式（22）可以看到，为了更新 $v_{w}^{'}$ ，对于每一个训练实例，我们不得不迭代词汇表中的每一个单词 $w_{j}$ ，计算它们的网络输入 $u_{j}$ ，概率预测 $y_{j}$ （对于skip-gram，是 $y_{c, j}$ ），它们的预测误差 $e_{j}$ （对于skip-gram，是 $E I_{j}$ ），最后计算它们的预测误差以更新输出向量 $v_{j}^{'}$ 。
给定一个训练样本，要对所有的单词进行这样的运算，花费非常高。因此，扩展到大词汇量和大词料库时，这样做不现实。为了解决这个问题，直观来说，对于每一个样本，要限制必须被更新的输出向量的数量。要达到这个要求，一个优雅的解法就是分层softmax，另一个是降采样。
两个技巧都只是优化更新输出向量的计算过程。我们的推导中，我们关注三个量：（1） $E$ ，新的目标函数，（2） $\frac{\partial E}{\partial h}$ ，更新输入向量的后向传播的预测误差的加权和。

本文主要对word2vec的数学模型进行阐述，关于优化过程的详细数学推导，将作为另一篇文章。