word2Vec学习 - 爱码网

Word2Vec模型是Google公司在2013年开源的一种将词语转化为向量表示的模型。

word2vec作为神经概率语言模型的输入，其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说，“某个语言模型”指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negative Sampling。两个模型乘以两种方法，一共有四种实现。

CBOW

word2Vec学习

CBOW 是 Continuous Bag-of-Words Model 的缩写，是一种根据上下文的词语预测当前词语的出现概率的模型。其图示如上图。

CBOW是已知上下文，估算当前词语的语言模型。其学习目标是最大化对数似然函数：

word2Vec学习

其中，w表示语料库C中任意一个词。从上图可以看出，对于CBOW，

输入层是上下文的词语的词向量（什么！我们不是在训练词向量吗？不不不，我们是在训练CBOW模型，词向量只是个副产品，确切来说，是CBOW模型的一个参数。训练开始的时候，词向量是个随机值，随着训练的进行不断被更新）。

投影层对其求和，所谓求和，就是简单的向量加法。

输出层输出最可能的w。由于语料库中词汇量是固定的|C|个，所以上述过程其实可以看做一个多分类问题。给定特征，从|C|个分类中挑一个。

word2Vec学习

上图输出层的树形结构即为Hierarchical Softmax。

非叶子节点相当于一个神经元（感知机，我认为逻辑斯谛回归就是感知机的输出代入f(x)=1/(1+e^x)），二分类决策输出1或0，分别代表向下左转或向下右转；每个叶子节点代表语料库中的一个词语，于是每个词语都可以被01唯一地编码，并且其编码序列对应一个事件序列，于是我们可以计算条件概率p(w|Context(w))。

在开始计算之前，引入一些符号：
1. $p^w$ 从根结点出发到达w对应叶子结点的路径.

2. $l^w$ 路径中包含结点的个数

3. $p^w_{1}$ , $p^w_{2}$ ,…, $p^w_{l^w}$ 路径 $p^w$ 中的各个节点

4. $d^w_{2}$ , $d^w_{3}$ ,…, $d^w_{l^w}$ $\in$ {0,1}词w的编码， $d^w_{j}$ 表示路径 $p^w$ 第j个节点对应的编码（根节点无编码）

5. $θ^w_{1}$ , $θ^w_{2}$ ,…, $θ^w_{l^w-1}$ $\in$ {0,1}路径 $p^w$ 中非叶节点对应的参数向量

于是可以给出w的条件概率：

word2Vec学习

这是个简单明了的式子，从根节点到叶节点经过了屏幕快照 2016-07-17 上午10.00.06.png-1个节点，编码从下标2开始（根节点无编码），对应的参数向量下标从1开始（根节点为1）。

其中，每一项是一个逻辑斯谛回归：

word2Vec学习

考虑到d只有0和1两种取值，我们可以用指数形式方便地将其写到一起：

word2Vec学习

我们的目标函数取对数似然：
word2Vec学习
将p(w|Context(w))代入上式，有

这也很直白，连乘的对数换成求和。不过还是有点长，我们把每一项简记为：

怎么最大化对数似然函数呢？分别最大化每一项即可（这应该是一种近似，最大化某一项不一定使整体增大，具体收敛的证明还不清楚）。怎么最大化每一项呢？先求函数对每个变量的偏导数，对每一个样本，代入偏导数表达式得到函数在该维度的增长梯度，然后让对应参数加上这个梯度，函数在这个维度上就增长了。这种白话描述的算法在学术上叫随机梯度上升法，详见更规范的描述。

每一项有两个参数，一个是每个节点的参数向量 $θ^w_{j-1}$ ，另一个是输出层的输入 $x_{w}$ ，我们分别对其求偏导数：
word2Vec学习
因为sigmoid函数的导数有个很棒的形式：

于是代入上上式得到：

合并同类型得到：

于是 $θ^w_{j-1}$ 的更新表达式就得到了：