反向传播以及梯度消失（爆炸）问题总结

1 参数说明

2 反向传播

为了弄清楚为何会出现消失的梯度，来看看一个极简单的深度神经网络（详细理论推导请看本博客第7节内容）：每一层都只有一个单一的神经元。下面就是有三层隐藏层的神经网络：

$σ$ 表示sigmoid**函数， $L （ L o s s ）$ 也可以用 $C （ C o s t ）$ 表示

Note:导数值小于0.25

其中

z_{1} = x w_{1} + b_{1}

a_{1} = σ (z_{1})

z_{2} = a_{1} w_{2} + b_{2}

a_{2} = σ (z_{2})

z_{3} = a_{2} w_{3} + b_{3}

a_{3} = σ (z_{3})

z_{4} = a_{3} w_{4} + b_{4}

a_{4} = y = σ (z_{4})

代入推导出:

$y = a 4 = σ (z_{4}) = σ (a_{3} w_{4} + b_{4}) = σ (σ (a_{2} w_{3} + b_{3}) w_{4} + b_{4}) = σ (σ (σ (a_{1} w_{2} + b_{2}) w_{3} + b_{3}) w_{4} + b_{4}) = σ (σ (σ (σ (x w_{1} + b_{1}) w_{2} + b_{2}) w_{3} + b_{3}) w_{4} + b_{4})$

C = f (y)

eg:

C = (y - \hat{y})^{2}

则

C = f (σ (σ (σ (σ (x w_{1} + b_{1}) w_{2} + b_{2}) w_{3} + b_{3}) w_{4} + b_{4}))

部分变量求导关系：

\frac{\partial a_{4}}{\partial a_{3}} = σ^{'} (z_{4}) w_{4}

\frac{\partial a_{3}}{\partial a_{2}} = σ^{'} (z_{3}) w_{3}

\frac{\partial a_{2}}{\partial a_{1}} = σ^{'} (z_{2}) w_{2}

则

$C$ 对 $w_{1}$ 求导结果为：

\frac{\partial C}{\partial w_{1}} = \frac{\partial C}{\partial a_{4}} \frac{\partial a_{4}}{\partial a_{3}} \frac{\partial a_{3}}{\partial w_{1}} = \dots = \frac{\partial C}{\partial a_{4}} \frac{\partial a_{4}}{\partial a_{3}} \frac{\partial a_{3}}{\partial a_{2}} \frac{\partial a_{2}}{\partial a_{1}} \frac{\partial a_{1}}{\partial w_{1}}

= \frac{\partial C}{\partial a_{4}} σ^{'} (z_{4}) w_{4} σ^{'} (z_{3}) w_{3} σ^{'} (z_{2}) w_{2} σ^{'} (z_{1}) x

同理 $C$ 对 $b_{1}$ 求导结果为：

\frac{\partial C}{\partial b_{1}} = \frac{\partial C}{\partial a_{4}} σ^{'} (z_{4}) w_{4} σ^{'} (z_{3}) w_{3} σ^{'} (z_{2}) w_{2} σ^{'} (z_{1})

$C$ 对 $w_{2}$ 求导结果为：

\frac{\partial C}{\partial w_{2}} = \frac{\partial C}{\partial a_{4}} \frac{\partial a_{4}}{\partial a_{3}} \frac{\partial a_{3}}{\partial w_{2}} = \dots = \frac{\partial C}{\partial a_{4}} \frac{\partial a_{4}}{\partial a_{3}} \frac{\partial a_{3}}{\partial a_{2}} \frac{\partial a_{2}}{\partial w_{2}}

= \frac{\partial C}{\partial a_{4}} σ^{'} (z_{4}) w_{4} σ^{'} (z_{3}) w_{3} σ^{'} (z_{2}) a_{1}

同理 $C$ 对 $b_{2}$ 求导结果为：

\frac{\partial C}{\partial b_{2}} = \frac{\partial C}{\partial a_{4}} σ^{'} (z_{4}) w_{4} σ^{'} (z_{3}) w_{3} σ^{'} (z_{2})

3 梯度消失

比较一下 $\frac{\partial C}{\partial b_{1}}$ 和 $\frac{\partial C}{\partial b_{3}}$ 可知， $\frac{\partial C}{\partial b_{1}}$ 要远远小于 $\frac{\partial C}{\partial b_{3}}$ 。

因此，梯度消失的本质原因是： $w_{j} σ^{'} (z_{j}) < \frac{1}{4}$ 的约束。

4 梯度爆炸（激增）

网络的权重设置的比较大且偏置使得 $σ^{'} (z_{j})$ 项不会太小。

5 梯度不稳定

不稳定的梯度问题：根本的问题其实并非是消失的梯度问题或者激增的梯度问题，而是在前面的层上的梯度是来自后面的层上项的乘积。当存在过多的层次时，就出现了内在本质上的不稳定场景。唯一让所有层都接近相同的学习速度的方式是所有这些项的乘积都能得到一种平衡。如果没有某种机制或者更加本质的保证来达成平衡，那网络就很容易不稳定了。简而言之，真实的问题就是神经网络受限于不稳定梯度的问题。所以，如果我们使用标准的基于梯度的学习算法，在网络中的不同层会出现按照不同学习速度学习的情况。

6 梯度消失、爆炸的解决方案

详解机器学习中的梯度消失、爆炸原因及其解决方法

方案1 预训练加微调（Hinton）
方案2 梯度剪切（设置阈值，控制爆炸）、正则（控制爆炸）
方案3 relu、leakrelu、elu等**函数
方案4 batchnorm（batchnorm全名是batch normalization，简称BN，批规范化，通过规范化操作将输出信号x规范化到均值为0，方差为1保证网络的稳定性）
方案5 残差结构
方案6 LSTM

7 反向传播公式推导

第2节用一个简单的网络推导了反向传播公式，本节用复杂的网络进行详细的推导（内容来自Backpropagation）

7.1 问题描述

7.2 Chain rule

第二节我们采用 $\frac{\partial C}{\partial w} = \frac{\partial C}{\partial a} \frac{\partial a}{\partial w}$ 链式法则，比较直观一点，此节，我们采用 $\frac{\partial C}{\partial w} = \frac{\partial C}{\partial z} \frac{\partial z}{\partial w}$ 链式法则，大同小异！ $a$ 和 $z$ 都是中间变量而已，一个作为layer的输出，一个作为layer的输入！