Long Short-Term Memory
上面是RNN的网络基本结构。
上面是RNN的内部展开,并与普通的神经元forward进行比较。可以大概看出基本上两个不同:1.**函数发生变化。2.需要多学习一个,给以往的状态加权。
但是,RNN会产生梯度消失/梯度爆炸(没办法回忆久远记忆)
LSTM加了三个门限。输入控制,输出控制和忘记控制。
- 宏观理解:
LSTM相当于有两条线,分别是主线和分线,之前的RNN就是分线。LSTM会将分线剧情按照重要程度写入内部。而之前的剧情会根据重要程度经过忘记门限与当前分线剧情一起输入。这就是LSTM最基本的理解。
现在将LSTM 的module展开如上。
剩下数学推导参考(选其一)
英文github
中文译文