梯度消失与梯度爆炸

网络层数太多是导致梯度消失或者梯度爆炸的直接原因, 使用S型**函数(如:sigmoid函数,tanh函数)会导致梯度消失问题,初始权重设置太大会导致梯度爆炸。

梯度消失指的是权重不再更新,直观上看是从最后一层到第一层权重的更新越来越慢,直至不更新。本质原因是反向传播的连乘效应,导致最后对权重的偏导接近于零。

主要是因为以前用sigmoid的时候,sigmoid中心部位和两侧的梯度差别太大,如果权重初始化得太大,**值基本都在sigmoid两侧,两侧梯度几乎为0,传播几层就没有梯度了。

即使用很好的初始化算法把**值控制在一个合理范围内,优化几下有几个神经元就又跑到两侧了,而一旦到两侧,因为梯度过小,就再也无法通过梯度更新来使其恢复。

这个问题在提出ReLU和有效的初始化方法(例如MSRA)后已经大概率解决。

后来又出了个Batch Normalization,不管优化多少层都跟浅层一样,梯度消失问题基本可以认为彻底解决了。

推导:

梯度消失与梯度爆炸

相关文章:

  • 2021-11-14
  • 2021-05-17
  • 2021-12-23
  • 2022-12-23
  • 2021-08-01
  • 2021-12-01
猜你喜欢
  • 2022-01-02
相关资源
相似解决方案