NNLM学习笔记 - 爱码网

原论文： http://jmlr.org/papers/volume3/bengio03a/bengio03a.pdf
其他资料：https://blog.csdn.net/sxhlovehmm/article/details/41252125

NNLM（Neural Probabilistic Language Model），使用神经网络来对语言模型进行建模。
语言模型的公式如下：
$\hat P (w_1^T) = \prod^T_{t=1} \hat P (w_t | \pmb w_1^{t-1})$
其中 $w_t$ 是第 $t$ 个词， $\pmb w_i^j = (w_i, w_{i+1}, ..., w_{j})$ 。
也就是用前几个词去预测后一个词。一般，上面的模型用起来太困难，所以使用n元语言模型：
$\hat P (w_1^T | \pmb w_1^{t-1}) \approx \hat P (w_t | \pmb w_{t-n+1}^{t-1})$
也就是认为，当前词出现的概率仅与前 $n-1$ 个词有关。

NNLM的结构：

NNLM学习笔记

前向传播：
$\pmb x = (C(w_{t-1}), C(w_{t-2}), C(w_{t-3}), ..., C(w_{t-n+1}))$
$\pmb y = \pmb b + \pmb{W} \pmb{x} + \pmb{U} tanh(\pmb{d}+\pmb{H}\pmb{x})$
$\hat{P} = softmax(\pmb{y})$
基于SGD的训练方法：
$\theta \leftarrow \theta + \epsilon\frac{\partial log \hat{P}}{\partial \theta}$
其中， $\theta = (\pmb b, \pmb d, \pmb W, \pmb U, \pmb H, C)$

重点：

两个基本步骤：

$C$ ：一个将单词表 $V$ 中的某元素 $i$ 转换为向量 $C(i) \in \mathbb{R}^m$ 的映射。它就是现在被称为的词向量或词嵌入。形式上讲，它是一个 $|V|\times m$ 的参数矩阵。上式中， $\pmb x$ 就是输入序列中的词的词向量构成的向量，或者说，它是一个 $|V|\times m$ 矩阵。
g(.)：一个将输入单词的词向量转换为概率的映射。在上式中， $g(\pmb{x}) = softmax(\pmb{y}(\pmb{x}))$ 。此外， $g(.)$ 也可以是FFN、RNN等可学习的模型。

补充：

训练目标：最大化如下的损失函数：
$L = \frac{1}{T} \sum_t log f(w_t, w_{t-1}, ... , w_{t-n+1}; \theta) + R(\theta)$
其中， $R(\theta)$ 是正则项，原论文使用的是weight decay，但未用于bias上。 $f$ 即 $\hat P$

其他内容，如训练算法、针对CPU的并行化方案等，参见原论文。