Recurrent Neural Network Based Language Model RNNLM 原理及BPTT数

参考文献：

1. Statistical Language Models Based on Neural Networks

2. A guide to recurrent neural networks and backpropagation

前一篇文章介绍了nnlm，用神经网络来对语言进行建模，nnlm一个很大的优点就是将历史映射到一个低维的空间而并不像普通n-gram,这就降低了模型的参数，并且使相似的历史进行聚类，映射后的低维向量也就是前篇文章所称的词向量，并且从结果来看nnlm的效果非常不错，但仍然有缺点，一方面是隐层到输出层的计算量非常大，另一方面是nnlm是一类典型的前馈神经网络，它的历史长度预先必须设置并固定，与循环神经网络(rnnlm)来比不能捕获更长的历史信息。

rnnlm与nnlm主要的不同就在对历史的捕捉上面，nnlm的历史长度也只有数个词，而rnnlm的历史是前面所有的词，这样使得rnnlm可以捕获更长的历史信息。

简单的循环神经网络结构

Recurrent Neural Network Based Language Model RNNLM 原理及BPTT数

该图是简单循环神经网络的结构，其中t代表时间，w(t)表示第t个时刻的当前输入单词，该单词的编码方式为1-of-V，即w(t)的维度为V，V是词典大小，w(t)的分量只有一个为1, 表示当前单词，其余分量为0。s(t-1)代表隐层的前一次输出，y(t)表示P(wt | wt, s(t-1))。即之所以称为循环神经网络，就是t个时刻，s(t)会留下一个副本，在t+1时刻，s(t)会送到输出层，相当于一个循环，把上面的循环网络表示的更形象一点如下，就更容易明白为什么叫循环神经网络了：