梯度爆炸与消失的推导

以一个3个神经元的网络为例,优化参数w1
手工推导---神经网络中的梯度爆炸与消失
综上所述原因如下:

  1. 梯度消失一般出现深层网络中采用了不合适的损失函数。
  2. 梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。

解决方案

(1)预训练加微调
(2)梯度剪切、正则
(3)ReLU、LeakyReLU、ELU等**函数
(4)BatchNormalization
(5)残差结构
(6)LSTM

本文重点解释问题产生的原因,解决方案可参考
文章1

相关文章:

  • 2021-05-30
  • 2022-12-23
  • 2021-07-16
  • 2021-05-10
  • 2021-08-10
  • 2021-10-13
猜你喜欢
  • 2021-07-02
  • 2021-05-24
  • 2021-05-23
  • 2021-04-27
  • 2022-01-18
相关资源
相似解决方案