BP网络反向传播推导

多层神经网络反向传播的推导

BP网络其实就是多个逻辑斯特模型的组合，逻辑斯特模型的梯度下降反向传播请看上一篇。

BP网络反向传播推导

首先，前向传播的过程是这样的
$a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)$
$a^l$ 是第L层的输出，列向量, $W^l$ 就是该层前面的权重，矩阵， $b^l$ 是该层的偏置，列向量。

损失函数

在进行DNN反向传播算法前，我们需要选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失，比如均方误差：
$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2$
其中， $a^L$ 和 $y$ 为特征维度为 $n_{out}$ 的向量,而 $||S||^2$ 为S的L2范数。

计算输出层第L层的梯度

那么第L层关于 $W$ 和 $b$ 的表达式为：
$a^L = \sigma(z^L) = \sigma(W^La^{L-1} + b^L)$
拆分来看, ${a^L}_1$ 由前一层的四个神经元影响，这里就不拆分开了，其表达就是 $W^La^{L-1}$ 两个矩阵的点积，即2$\times $4矩阵和4$ \times $1矩阵点积，得到2$ \times$1矩阵。

损失函数就变为：
$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2 = \frac{1}{2}|| \sigma(W^La^{L-1} + b^L)-y||_2^2$
从上式就可以求 $W$ ， $b$ 的梯度：
$\frac{\partial J(W,b,x,y)}{\partial W^L} =\frac{\partial J(W,b,x,y)}{\partial z^L}\frac{\partial z^L}{\partial W^L} = [(a^L-y) \odot \sigma^{'}(z^L)](a^{L-1})^T$
求导过程中用到了链式法则和复合函数的求导法则，而对于离散型变量的求导则是将其系数矩阵转置，且座乘右乘也要相同，其中 $A \odot B = (a_1b_1, a_2b_2,...a_nb_n)^T$ 。

同理：
$\frac{\partial J(W,b,x,y)}{\partial b^L} =(a^L-y)\odot \sigma^{'}(z^L)$
这样，就得到了L层权重和偏置的梯度。

计算非输出层任意第 $l$ 层的梯度

为了方便向前面层传播，将 $\frac{\partial J(W,b,x,y)}{\partial z^L}$ 记做 $\delta^L$ ，叫做该层的误差，有：
$\delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L)$
现在，得到了第L层的梯度，就可以计算前面的某层 $l$ 的梯度，对于第 $l$ 层的未**输出 $z^l$ ，它的误差可以表示为:
$\delta^l =\frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^L}(\frac{\partial z^L}{\partial z^{L-1}}\frac{\partial z^{L-1}}{\partial z^{L-2}}...\frac{\partial z^{l+1}}{\partial z^{l}})$
从第L层直接求第 $l$ 层的误差是不好求的，这里用到了数学归纳法，第L层的$\delta^L $上面我们已经求出，假设第$ l+1 $层的$ \delta^{{l+1}$已经求出来了，那么我们就可以求第$l$层的$\delta}l$：
$\delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^{l+1}} \frac{\partial z^{l+1}}{\partial z^{l}} =\delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}}$
其中：未知量是 $\frac{\partial z^{l+1}}{\partial z^{l}}$ ，而 $z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1}$ ，所以：
$\frac{\partial z^{l+1}}{\partial z^{l}} = {(W^{l+1})}^T\odot\sigma^{'}(z^l)$
同样，求导后矩阵运算是左乘还是右乘需要与求导前保持一致，并且需要经过转置,此处需要进行矩阵的广播，将 $\sigma^{'}(z^l)$ 广播成可以和前者运算的大小。
$\delta^{l} = (\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} =(W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$
由于我们之前计算出了最后一层的delta误差 $\delta^{L}$ ，通过上式，我们可以依次求得一直到第二层的delta误差 $\delta^{2}$ ,第一层为我们的输入，并不存在第一层的delta误差。因此我们的计算到第二层截止。

现在就可以对每一层的 $W$ ， $b$ 求解梯度了，由于 $z^l= W^la^{l-1} + b^l$ ：
$\frac{\partial J(W,b,x,y)}{\partial W^l} = \frac{\partial J(W,b,x,y)}{\partial z^l}\frac{\partial z^l}{\partial W^l} = \delta^{l}(a^{l-1})^T$

$\frac{\partial J(W,b,x,y)}{\partial b^l} = \frac{\partial J(W,b,x,y)}{\partial z^l}\frac{\partial b^l}{\partial W^l} = \delta^{l}$

参数更新

到现在，就得到了所有层 $W$ 和 $b$ 的梯度，可以进行权重更新了：
$W^l = W^l - α\frac{\partial J(W,b,x,y)}{\partial W^l}$

$b^l = b^l - α\frac{\partial J(W,b,x,y)}{\partial b^l}$

,x,y)}{\partial W^l}
$$