1RNN为什么会有梯度消失问题
(1)沿时间反向方向:t-n时刻梯度=t时刻梯度* π(W*激活函数的导数)
 
讨论LSTM和RNN梯度消失问题
(2)沿隐层方向方向:l-n层的梯度=l层的梯度*π(U*激活函数的导数)
讨论LSTM和RNN梯度消失问题
所以激活函数的导数和W连乘可以造成梯度消失和爆炸;由函数曲线看sigmoid的导数最大是1/4;
 
 
2LSTM可以避免梯度消失问题吗?
讨论LSTM和RNN梯度消失问题
 
由三个门的状态公式,ht为输出,ct为状态单元
讨论LSTM和RNN梯度消失问题由公式看出ct是线性增加的,加法形式
 
查看知乎和一些资料,LSTM梯度消失的解决是因为ct和ct-1的导数是ft,也就是遗忘门的值,遗忘门通常接近1。
我理解是解决了LSTM单元图中的最上面那条横向通路ct-1到ct的梯度消失问题;
但ht会通过权重矩阵和下一单元连接,梯度链中也存在梯度消失问题。
 
 
(1)沿时间反向方向:t-n时刻梯度=π( Σ t时刻梯度* 四个状态的W)
 
 讨论LSTM和RNN梯度消失问题
其中,
讨论LSTM和RNN梯度消失问题
 讨论LSTM和RNN梯度消失问题
 
(2)沿隐层方向方向:l-n层的梯度=π(( Σ 四个状态的梯度* W) *l层激活函数的导数 )    
 
 讨论LSTM和RNN梯度消失问题
 
备注:
激活函数tanh和sigmoid的导函数都是原函数的函数:
讨论LSTM和RNN梯度消失问题
 
 
 
 
 
 
 

相关文章:

  • 2021-09-22
  • 2021-06-20
  • 2021-11-20
  • 2021-05-16
  • 2021-05-24
  • 2022-01-11
  • 2021-08-10
猜你喜欢
  • 2021-09-29
  • 2021-12-07
  • 2021-12-14
  • 2021-11-03
  • 2021-09-30
  • 2022-01-18
  • 2021-11-08
相关资源
相似解决方案