长短期记忆网络(long short-term memory, LSTM)

上期总结了基础RNN的相关内容,LSTM作为基于RNN的

1 . LSTM 的宏观认识

LSTM作为RNN的变种,主要在于单元内部结构添加了门的概念()有其自身的优势和不足:
优点:

  • 能够捕捉列中更深层次的联系,如下方两句话,唯一的差别只是cat的单复数问题。在传统的rnn模型中,无法在如此长的间隔中捕捉cat/cats和was/were的关系,而LSTM有可能做到。
  • 能够解决梯度消失(vanishing gradient)的问题。

缺点:

  • 计算复杂,训练时间长。

The cat ,which already ate … was full.
The cats,which already ate … were full.

2.LSTM的内部结构

LSTM引入了几种新的元素:细胞状态C<t>,更新门Γu,遗忘门Γf,和输出门Γo。三种门作用大致如下:

  • 更新门:作用于细胞状态,决定更新什么信息。如“The cat ,which already ate … was full.”当输入”cat”时,会更新细胞状态,记住cat是单数。
  • 遗忘门:作用于细胞状态,决定遗忘什么信息。如“The cat ,which already ate … was full.”当输入“was”时,因为“was”是由“cat”决定的,所以会遗忘关于cat的信息。
  • 输出门:确定输出。
    循环序列模型总结之LSTM

    另外,在实际使用时,几个门值不仅仅取决于a<t1>x<t>,还可能会取决于上一个记忆细胞的值c<t1>,这也叫做偷窥孔连接。

3.LSTM的前向传播

下图较为清晰的展现了LSTM的前项传播过程,
循环序列模型总结之LSTM

4.LSTM的反向传播过程

在使用深度学习框架时,框架会为自动的为我们计算反向传播,不过了解一下LSTM的反向传播过程和公式也挺有好处。就是真的多啊这公式!嗨呀。

循环序列模型总结之LSTM
交叉熵详解:https://blog.csdn.net/tsyccnh/article/details/79163834
参考:https://blog.csdn.net/wjc1182511338/article/details/79285503

相关文章: