1. LSTM简介

  • x 输入顺序不同,得到的结果不同
  • 核心:memory
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅
    【学习笔记】LSTM 李弘毅

2. LSTM training

【学习笔记】LSTM 李弘毅
【学习笔记】LSTM 李弘毅
【学习笔记】LSTM 李弘毅
【学习笔记】LSTM 李弘毅

3. LSTM和RNN的比较(为什么说LSTM可以解决RNN中的梯度消失问题?

RNN在每个时间点计算产生的输出会直接把memory覆盖掉

【学习笔记】LSTM 李弘毅

而LSTM每个时间点产生的输出会对原来的memory进行累加

如果weight可以影响到memory中的值,则这个影响则一定会存在,因为这个影响是累加的(除非forget gate被使用),但如果在RNN中,每个时间点的memory会被清洗掉,因此会造成没有影响的问题,即梯度消失

【学习笔记】LSTM 李弘毅

Gated Recurrent Unit(GRU)

GRU一共两个Gate,比LSTM少一个,原理是将LSTM中的input gate和forget gate联动起来,如果memory中有未被清洗掉的值,则不会input新的进来,只有当被清洗掉,input gate才会被打开

【学习笔记】LSTM 李弘毅

解决gradient vanish 问题的其他方法:

【学习笔记】LSTM 李弘毅

相关文章: