动手学PyTorch | (48) 词嵌入(word2vec)

⾃然语言是一套⽤来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是用来表示词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入 (word embedding)。近年来，词嵌入已逐渐成为⾃然语⾔言处理的基础知识。

详细内容可以查看word2vec-知其然知其所以然。

1. 为何不采用one-hot向量

2. 跳字模型(skip-gram)

3. 连续词袋模型(CBOW)

4. 近似训练

1. 为何不采用one-hot向量

我们在(循环神经网络的从零开始实现)中使⽤one-hot向量表示词(字符为词)。回忆一下，假设词典中不同词的数量(词典⼤小)为N，每个词可以和从0~N-1的连续整数⼀一对应。这些与词对应的整数叫作词的索引。假设⼀个词的索引为i，为了得到该词的one-hot向量表示，我们创建⼀个全0的⻓为N的向量，并将其第i位设置为1。这样⼀来，每个词就表示成了⼀个长度为N的向量量，可以直接被神经⽹络使用。

虽然one-hot词向量构造起来很容易，但通常并不是一个好选择。一个主要的原因是，one-hot词向量⽆法准确表达不同词之间的相似度，如我们常常使用的余弦相似度。对于向量动手学PyTorch | (48) 词嵌入(word2vec) ,它们的余弦相似度是它们之间夹⻆的余弦值:

动手学PyTorch | (48) 词嵌入(word2vec)

由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过one-hot向量准确地体现出来。

word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表示成一个定长的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。word2vec工具包含了两个模型，即跳字模型 (skip-gram)和连续词袋模型(continuous bag of words，CBOW)。接下来让我们分别介绍这两个模型以及它们的训练方法。

2. 跳字模型(skip-gram)

跳字模型假设基于某个词来生成他在文本序列周围的词。举个例子，假设⽂本序列是“the”“man”“loves”“his”“son”。以“loves”作为中⼼词，设背景窗⼝⼤小为2（中心词左右各两个词）。如下图所示，跳字模型所关心的是，给定中⼼词“loves”，生成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率，即

动手学PyTorch | (48) 词嵌入(word2vec)

假设给定中⼼词的情况下，背景词的⽣成是相互独立的（条件独立性假设），那么上式可以改写成：

动手学PyTorch | (48) 词嵌入(word2vec)

在跳字模型中，每个词被表示成两个d维向量，⽤来计算条件概率。假设这个词在词典中索引为i ，当它为中⼼词时向量表示为动手学PyTorch | (48) 词嵌入(word2vec) ,而为背景词时向量表示为（每个词都可以作为中心词或其他词的背景词，窗口是滑动的）。设中心词在词典中的索引为c，背景词在词典中的索引为o，给定中心词⽣成背景词的条件概率可以通过对向量内积做softmax运算⽽得到:

动手学PyTorch | (48) 词嵌入(word2vec)

其中词典索引集动手学PyTorch | (48) 词嵌入(word2vec) .假设给定一个⻓度为T的⽂本序列，设时间步t的词为。假设给定中⼼词的情况下背景词的⽣成相互独立，当背景窗口⼤小为m时，跳字模型的似然函数即给定任一中心词⽣成所有背景词的概率:

动手学PyTorch | (48) 词嵌入(word2vec)

注意这里小于1或大于T的时间步可以忽略。

训练跳字模型

跳字模型的参数是每个词所对应的中⼼词向量和背景词向量。训练中我们通过最⼤化似然函数来学习模型参数，即最大似然估计。这等价于最小化以下损失函数:

动手学PyTorch | (48) 词嵌入(word2vec)

如果使用随机梯度下降，那么在每一次迭代里我们随机采样一个较短的子序列来计算有关该子序列的损失，然后计算梯度来更新模型参数。梯度计算的关键是条件概率的对数有关中⼼词向量和背景词向量（参数）的梯度。根据定义，⾸先看到：

动手学PyTorch | (48) 词嵌入(word2vec)

通过微分，我们可以得到上式中动手学PyTorch | (48) 词嵌入(word2vec) (的中心词向量)的梯度:

动手学PyTorch | (48) 词嵌入(word2vec)

它的计算需要词典中所有词以动手学PyTorch | (48) 词嵌入(word2vec) 为中心词的条件概率。有关其他词向量的梯度同理可得。

训练结束后，对于词典中的任一索引为i的词，我们均得到该词作为中心词和背景词的两组词向量动手学PyTorch | (48) 词嵌入(word2vec) 和。在自然语⾔处理应⽤中，一般使⽤跳字模型的中⼼词向量作为词的表征向量。

3. 连续词袋模型(CBOW)

连续词袋模型与跳字模型类似。与跳字模型最大的不同在于，连续词袋模型假设基于某中⼼词在⽂本序列前后的背景词来⽣生成该中心词。在同样的⽂本序列“the”“man”“loves”“his”“son”里，以“loves”作为中心词，且背景窗口⼤小为2时，连续词袋模型关心的是，给定背景词“the”“man”“his”“son”⽣成中心词“loves”的条件概率(如下图所示)，也就是：

动手学PyTorch | (48) 词嵌入(word2vec)

因为连续词袋模型的背景词有多个，我们将这些背景词向量取平均，然后使用和跳字模型一样的⽅法来计算条件概率。设动手学PyTorch | (48) 词嵌入(word2vec) 分别表示词典中索引为i的词作为背景词和中⼼词的向量(注意符号的含义与跳字模型中的相反)。设中⼼词在词典中的索引为c，背景词在词典中索引为,那么给定背景词生成中⼼词的条件概率:

动手学PyTorch | (48) 词嵌入(word2vec)

为了让符号更加简单，我们记动手学PyTorch | (48) 词嵌入(word2vec) ,且,那么上式可以简写成:

动手学PyTorch | (48) 词嵌入(word2vec)

给定⼀个⻓度为T的⽂本序列，设时间步t的词为动手学PyTorch | (48) 词嵌入(word2vec) ,背景窗口大小为m。连续词袋模型的似然函数是由背景词⽣成任一中⼼心词的概率：

动手学PyTorch | (48) 词嵌入(word2vec)

训练连续词袋模型

训练连续词袋模型同训练跳字模型基本一致。连续词袋模型的最⼤似然估计等价于最小化损失函数：

动手学PyTorch | (48) 词嵌入(word2vec)

注意到：

动手学PyTorch | (48) 词嵌入(word2vec)

通过微分，我们可以计算出上式中条件概率的对数有关任一背景词向量动手学PyTorch | (48) 词嵌入(word2vec) 的梯度：

动手学PyTorch | (48) 词嵌入(word2vec)

有关其他词向量的梯度同理可得。同跳字模型不⼀样的⼀点在于，我们一般使⽤连续词袋模型的背景词向量作为词的表征向量。

小结

1）词向量是⽤来表示词的向量。把词映射为实数域向量的技术也叫词嵌入。

2）word2vec包含跳字模型和连续词袋模型。跳字模型假设基于中心词来⽣成背景词。连续词袋模型假设基于背景词来生成中心词。

4. 近似训练

回忆上⼀节的内容。跳字模型的核心在于使用softmax运算得到给定中心词动手学PyTorch | (48) 词嵌入(word2vec) 来⽣成背景词的条件概率:

动手学PyTorch | (48) 词嵌入(word2vec)

该条件概率相应的对数损失:

动手学PyTorch | (48) 词嵌入(word2vec)

由于softmax运算考虑了背景词可能是词典V中的任一词，以上损失包含了词典⼤小数目的项的累加。在上一节中我们看到，不论是跳字模型还是连续词袋模型，由于条件概率使⽤了softmax运算，每⼀步的梯度计算都包含词典⼤小数目的项的累加。对于含⼏十万或上百万词的较大词典，每次的梯度计算开销可能过大。为了降低该计算复杂度，本节将介绍两种近似训练⽅法，即负采样(negative sampling)或层序softmax(hierarchical softmax)。由于跳字模型和连续词袋模型类似，本节仅以跳字模型为例介绍这两种方法。

负采样

负采样修改了原来的目标函数。给定中心词动手学PyTorch | (48) 词嵌入(word2vec) 的一个背景窗口，我们把背景词出现在该背景窗口看作一个事件，并将该事件的概率计算为：

动手学PyTorch | (48) 词嵌入(word2vec)

其中的动手学PyTorch | (48) 词嵌入(word2vec) 函数与sigmoid**函数的定义相同:

动手学PyTorch | (48) 词嵌入(word2vec)

我们先考虑最⼤化⽂本序列中所有该事件的联合概率来训练词向量。具体来说，给定一个⻓度为T的⽂本序列，设时间步t的词为动手学PyTorch | (48) 词嵌入(word2vec) 且背景窗口大小为m，考虑最大化联合概率：

动手学PyTorch | (48) 词嵌入(word2vec)

然而，以上模型中包含的事件仅考虑了正类样本。这导致当所有词向量相等且值为⽆穷大时，以上的联合概率才被最⼤化为1。很明显，这样的词向量毫无意义。负采样通过采样并添加负类样本使⽬标函数更有意义。设背景词动手学PyTorch | (48) 词嵌入(word2vec) 出现在中心词的一个背景窗口为事件P，我们根据分布P(w)采样K个未出现在该背景窗口中的词，即噪声词。设噪声词不出现在中⼼心词的该背景窗⼝为事件.假设同时含有正类样本和负类样本的事件P, 动手学PyTorch | (48) 词嵌入(word2vec) 相互独立，负采样将以上需要最大化的仅考虑正类样本的联合概率改写为:

动手学PyTorch | (48) 词嵌入(word2vec)

其中条件概率被近似表示为:

动手学PyTorch | (48) 词嵌入(word2vec)

设⽂本序列中时间步t的词动手学PyTorch | (48) 词嵌入(word2vec) 在词典中的索引为,噪声词在词典中的索引为.有关以上条件概率的对数损失为:

动手学PyTorch | (48) 词嵌入(word2vec)

注意：动手学PyTorch | (48) 词嵌入(word2vec) .

现在，训练中每一步的梯度计算开销不再与词典⼤小相关，⽽与K线性相关。当K取较⼩的常数时，负采样在每一步的梯度计算开销较小。

层序Softmax

层序Softmax是另一种近似训练法。他使用了二叉树这一数据结构，树的每个叶结点代表词典V中的每个词。

动手学PyTorch | (48) 词嵌入(word2vec)

假设L(w)为从二叉树的根结点到词w的叶结点的路径(包括根结点和叶结点)上的结点数。设n(w,j)为该路径上第j个结点，并设该节点的背景词向量为动手学PyTorch | (48) 词嵌入(word2vec) .以上图为例，.层序softmax将跳字模型中的条件概率近似表示为:

动手学PyTorch | (48) 词嵌入(word2vec)

其中动手学PyTorch | (48) 词嵌入(word2vec) 函数与(多层感知机)中sigmoid**函数的定义相同，leftChild(n)是结点n的左⼦结点:如果判断x为真，=1,反之=-1.让我们计算上图中给定词生成词的条件概率。我们需要将的词向量和根结点到动手学PyTorch | (48) 词嵌入(word2vec) 路径上的非叶节点向量一一求内积。由于在二叉树中由根结点到叶结点的路径上需要向左、向右再向左地遍历(上图中加粗的路径)，我们得到：

动手学PyTorch | (48) 词嵌入(word2vec)

由于动手学PyTorch | (48) 词嵌入(word2vec) ,给定中心词⽣成词典V中任一词的条件概率之和为1这一条件也将满足:

动手学PyTorch | (48) 词嵌入(word2vec)

此外，由于动手学PyTorch | (48) 词嵌入(word2vec) 的数量级为,当词典很大时，层序softmax在训练中每⼀步的梯度计算开销相较未使用近似训练时⼤幅降低。

小结

1）负采样通过考虑同时含有正类样本和负类样本的相互独立事件来构造损失函数。其训练中每⼀步的梯度计算开销与采样的噪声词的个数K线性相关。

2）层序softmax使⽤了二叉树，并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大⼩的对数相关。