循环序列模型总结之LSTM

长短期记忆网络（long short-term memory, LSTM）

上期总结了基础RNN的相关内容，LSTM作为基于RNN的

LSTM作为RNN的变种，主要在于单元内部结构添加了门的概念（）有其自身的优势和不足：
优点：

能够捕捉列中更深层次的联系,如下方两句话，唯一的差别只是cat的单复数问题。在传统的rnn模型中，无法在如此长的间隔中捕捉cat/cats和was/were的关系，而LSTM有可能做到。
能够解决梯度消失（vanishing gradient）的问题。

缺点：

The cat ,which already ate … was full.
The cats,which already ate … were full.

LSTM引入了几种新的元素：细胞状态 $C^{< t >}$ ，更新门 $Γ_{u}$ ，遗忘门 $Γ_{f}$ ，和输出门 $Γ_{o}$ 。三种门作用大致如下：

更新门：作用于细胞状态，决定更新什么信息。如“The cat ,which already ate … was full.”当输入”cat”时，会更新细胞状态，记住cat是单数。
遗忘门：作用于细胞状态，决定遗忘什么信息。如“The cat ,which already ate … was full.”当输入“was”时，因为“was”是由“cat”决定的，所以会遗忘关于cat的信息。
输出门：确定输出。

另外，在实际使用时，几个门值不仅仅取决于 $a^{< t - 1 >}$ 和 $x^{< t >}$ ，还可能会取决于上一个记忆细胞的值 $c^{< t - 1 >}$ ，这也叫做偷窥孔连接。

下图较为清晰的展现了LSTM的前项传播过程，
循环序列模型总结之LSTM

在使用深度学习框架时，框架会为自动的为我们计算反向传播，不过了解一下LSTM的反向传播过程和公式也挺有好处。就是真的多啊这公式！嗨呀。