梯度爆炸与消失的推导
以一个3个神经元的网络为例,优化参数w1综上所述原因如下:
- 梯度消失一般出现深层网络中采用了不合适的损失函数。
- 梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。
解决方案
(1)预训练加微调
(2)梯度剪切、正则
(3)ReLU、LeakyReLU、ELU等**函数
(4)BatchNormalization
(5)残差结构
(6)LSTM
本文重点解释问题产生的原因,解决方案可参考
文章1
以一个3个神经元的网络为例,优化参数w1综上所述原因如下:
(1)预训练加微调
(2)梯度剪切、正则
(3)ReLU、LeakyReLU、ELU等**函数
(4)BatchNormalization
(5)残差结构
(6)LSTM
本文重点解释问题产生的原因,解决方案可参考
文章1
相关文章: