梯度消失与梯度爆炸

网络层数太多是导致梯度消失或者梯度爆炸的直接原因, 使用S型**函数(如:sigmoid函数,tanh函数)会导致梯度消失问题,初始权重设置太大会导致梯度爆炸。

梯度消失指的是权重不再更新，直观上看是从最后一层到第一层权重的更新越来越慢，直至不更新。本质原因是反向传播的连乘效应，导致最后对权重的偏导接近于零。

主要是因为以前用sigmoid的时候，sigmoid中心部位和两侧的梯度差别太大，如果权重初始化得太大，**值基本都在sigmoid两侧，两侧梯度几乎为0，传播几层就没有梯度了。

即使用很好的初始化算法把**值控制在一个合理范围内，优化几下有几个神经元就又跑到两侧了，而一旦到两侧，因为梯度过小，就再也无法通过梯度更新来使其恢复。

这个问题在提出ReLU和有效的初始化方法（例如MSRA）后已经大概率解决。

后来又出了个Batch Normalization，不管优化多少层都跟浅层一样，梯度消失问题基本可以认为彻底解决了。

推导：

梯度消失与梯度爆炸