1. LSTM简介 x 输入顺序不同,得到的结果不同 核心:memory 2. LSTM training 3. LSTM和RNN的比较(为什么说LSTM可以解决RNN中的梯度消失问题?) RNN在每个时间点计算产生的输出会直接把memory覆盖掉 而LSTM每个时间点产生的输出会对原来的memory进行累加 如果weight可以影响到memory中的值,则这个影响则一定会存在,因为这个影响是累加的(除非forget gate被使用),但如果在RNN中,每个时间点的memory会被清洗掉,因此会造成没有影响的问题,即梯度消失 Gated Recurrent Unit(GRU) GRU一共两个Gate,比LSTM少一个,原理是将LSTM中的input gate和forget gate联动起来,如果memory中有未被清洗掉的值,则不会input新的进来,只有当被清洗掉,input gate才会被打开 解决gradient vanish 问题的其他方法: 相关文章: