BP算法原理解析

注意：前方警告来袭：能认认真真看完这篇博客，读懂每一个公式，看懂每一个推导过程，那么就一定会对BP原理有一个根本性的认识，只有这样，作为一名程序猿，才能一个人在黑屋子里敲出对应功能的代码！！！

一、单层单连接

考虑以下两个单连接神经元：
BP算法原理解析
根据上图可得如下公式推导：
$n_{1} = w_{1} a_{0} n_{2} = w_{2} a_{1}$
$a_{1} = f_{1} (n_{1}) a = a_{2} = f_{2} (n_{2})$
$E = E [(t - a)^{2}] = E (n_{1}, n_{2}) = E (w_{1}, w_{2})$
此处用 $E$ 表示代价函数，物理意义为均方误差值， $t$ 表示训练样本所对应的目标值， $a$ 为最终的输出， $E$ 中 $t$ 为已知值，故其为 $a$ 的函数，又有前可知 $a$ 为 $n_{2}$ 的函数， $n_{2}$ 为 $a_{1}$ 的函数， $a_{1}$ 为 $n_{1}$ 的函数，如果将 $w_{2}$ 看着常数，则 $a$ 为 $n_{1}$ 、 $n_{2}$ 的函数，所以 $E$ 同时也可以表示为 $n_{1}$ 、 $n_{2}$ 的函数，同理也可以表示为 $w_{1}$ 、 $w_{2}$ 的函数。机器学习的目的就是通过调整参数 $w$ 使 $E$ 最小，为使后面求导方便，同样可以将 $E$ 表示成如下：

E \approx (t - a)^{2}

已知

E

为

w_{1}

、

w_{2}

的函数，为使

E

取值最小，可通过梯度下降法对

w_{1}

、

w_{2}

更新，更新过程如下：

w_{1} (k + 1) = w_{1} (k) - α \cdot \frac{\partial E}{\partial w_{1}} w_{2} (k + 1) = w_{2} (k) - α \cdot \frac{\partial E}{\partial w_{2}}

其中

α

为梯度更新步长，也称为学习率，可由人为设定。
已知

E = E [(t - a)^{2}] = E (n_{1}, n_{2}) = E (w_{1}, w_{2})

n_{1} = w_{1} a_{0} n_{2} = w_{2} a_{1}

根据求导链式法则可得:

\frac{\partial E}{\partial w_{1}} = \frac{\partial E}{\partial n_{1}} \cdot \frac{\partial n_{1}}{\partial w_{1}}

\frac{\partial E}{\partial w_{2}} = \frac{\partial E}{\partial n_{2}} \cdot \frac{\partial n_{2}}{\partial w_{2}}

其中

\frac{\partial n_{1}}{\partial w_{1}} = \frac{\partial (w_{1} a_{0})}{\partial w_{1}} = a_{0}

\frac{\partial n_{2}}{\partial w_{2}} = \frac{\partial (w_{2} a_{1})}{\partial w_{2}} = a_{1}

令

\frac{\partial E}{\partial n_{1}} = s_{1}

\frac{\partial E}{\partial n_{2}} = s_{2}

为敏感系数，后面会通过公式计算该系数，将以上公式合并可得如下公式：

\frac{\partial E}{\partial w_{1}} = \frac{\partial E}{\partial n_{1}} \cdot \frac{\partial n_{1}}{\partial w_{1}} = s_{1} \cdot a_{0}

\frac{\partial E}{\partial w_{2}} = \frac{\partial E}{\partial n_{2}} \cdot \frac{\partial n_{2}}{\partial w_{2}} = s_{2} \cdot a_{1}

带入更新公式可得：

w_{1} (k + 1) = w_{1} (k) - α \cdot s_{1} \cdot a_{0} w_{2} (k + 1) = w_{2} (k) - α \cdot s_{2} \cdot a_{1}

该更新公式中等式右边只有敏感系数

s_{1}

和

s_{2}

未知，先计算

s_{1}

、

s_{2}

的表达式，已知

s_{1}

、

s_{2}

的定义式，可通过求导链式法则求出

s_{1}

和

s_{2}

之间的关系。

s_{1} = \frac{\partial E}{\partial n_{1}} = \frac{\partial E}{\partial n_{2}} \cdot \frac{\partial n_{2}}{\partial n_{1}} = s_{2} \cdot \frac{\partial n_{2}}{\partial n_{1}}

其中

\frac{\partial n_{2}}{\partial n_{1}} = \frac{\partial (w_{2} a_{1})}{\partial n_{1}} = w_{2} \cdot \frac{\partial a_{1}}{\partial n_{1}} = w_{2} \cdot \frac{\partial f_{1} (n_{1})}{\partial n_{1}} = w_{2} \cdot {\dot{f}}_{1} (n_{1})

所以

s_{1}

与

s_{2}

之间的关系为

s_{1} = s_{2} \cdot w_{2} \cdot {\dot{f}}_{1} (n_{1})

现在

s_{1}

可以通过

s_{2}

表示了，也就是说到这一步只有

s_{2}

是未知数，下面计算

s_{2}

的表达式：由前面可知均方误差

E

的近似表达式为：

E \approx (t - a)^{2}

而

\frac{\partial E}{\partial n_{2}} = s_{2}

将两者合并可得：

s_{2} = \frac{\partial E}{\partial n_{2}} = \frac{\partial (t - a)^{2}}{\partial n_{2}} = - 2 (t - a) \cdot \frac{\partial a}{\partial n_{2}} = - 2 (t - a) \cdot \frac{\partial f_{2} (n_{2})}{\partial n_{2}} = - 2 (t - a) \cdot {\dot{f}}_{2} (n_{2})

注意到此表达式中等式的右边含有

(t - a)

为训练模型的偏差。
至此

s_{1}

、

s_{2}

的计算表达式均已知。
BP算法原理解析

现在重新理一下整个更新过程：
BP算法原理解析

总结：BP更新过程可分为三步：

第一步：数据前向传播

BP算法原理解析

第二步：误差后向传播

BP算法原理解析

第三步：权重更新

BP算法原理解析

二、多层多连接

要读懂这一节，必须先要对第一节有足够的理解。
因本人没有艺术细胞，不会画图，前面那个图都是复制来的，又多层网络图不好画，网上又搜索不到对应的图，所以就不贴图了，各位读者还请自行脑补，就是在第一个图上面进行扩展。下面直接列写公式：

{\begin{cases} {\vec{a}}^{0} = \vec{p} \\ {\vec{a}}^{m + 1} = {\vec{f}}^{m + 1} (W^{m + 1} {\vec{a}}^{m} + {\vec{b}}^{m + 1}) m = 0, 1, 2, . . ., M - 1 \\ \vec{a} = {\vec{a}}^{M} \end{cases}

代价函数(均方误差)：

\hat{F} (\vec{x}) = (\vec{t} (k) - \vec{a} (k))^{T} (\vec{t} (k) - \vec{a} (k))

权重更新公式：

这里需要注意下标

i, j

中

j

表示前一层神经元节点下标,

i

表示后一层神经元节点下标。
根据偏导链式法则同理可推得如下公式：
BP算法原理解析

其中

表示第

m

层第

i

个节点的输入。该式对

w 和 b

求偏导分别为：

\frac{\partial n_{i}^{m}}{\partial w_{i, j}^{m}} = a_{j}^{m - 1}

\frac{\partial n_{i}^{m}}{\partial b_{i}^{m}} = 1

同理定义敏感因子：

s_{i}^{m} = \frac{\partial \hat{F}}{\partial n_{i}^{m}}

结合前面两部分公式可得权重梯度：
BP算法原理解析

将其代入权重更新公式有：
BP算法原理解析

该表达式只是针对求解某一个权重和偏置。
下面以向量和矩阵的方式表示一层中权重和偏置的更新公式：
第

m

层权重用矩阵表示如下：

W^{m} = [\begin{matrix} w_{1, 1}^{m} & w_{1, 2}^{m} & \dots & w_{1, S^{m - 1}}^{m} \\ w_{2, 1}^{m} & w_{2, 2}^{m} & \dots & w_{2, S^{m - 1}}^{m} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ w_{S^{m}, 1}^{m} & w_{S^{m}, 2}^{m} & \dots & w_{S^{m}, S^{m - 1}}^{m} \end{matrix}]

第

m

层敏感因子向量如下：

{\vec{s}}^{m} = \frac{\partial \hat{F}}{\partial {\vec{n}}^{m}} = [\begin{matrix} \frac{\partial \hat{F}}{\partial n_{1}^{m}} \\ \frac{\partial \hat{F}}{\partial n_{2}^{m}} \\ ⋮ \\ \frac{\partial \hat{F}}{\partial n_{S^{m}}^{m}} \end{matrix}]

第

m - 1

层输出向量如下：

{\vec{a}}^{m - 1} = [\begin{matrix} a_{1}^{m - 1} \\ a_{2}^{m - 1} \\ ⋮ \\ a_{S^{m - 1}}^{m - 1} \end{matrix}]

第

m

层偏置向量如下：

{\vec{b}}^{m - 1} = [\begin{matrix} b_{1}^{m - 1} \\ b_{2}^{m - 1} \\ ⋮ \\ b_{S^{m - 1}}^{m - 1} \end{matrix}]

由此上述权重和偏置更新公式可统一由一下公式表示：
BP算法原理解析

现在我们需要推导如下关系式：
BP算法原理解析

已知

{\vec{s}}^{m} = \frac{\partial \hat{F}}{\partial {\vec{n}}^{m}} = {[\frac{\partial {\vec{n}}^{m + 1}}{\partial {\vec{n}}^{m}}]}^{T} \frac{\partial \hat{F}}{\partial {\vec{n}}^{m + 1}} = \frac{\partial {\vec{n}}^{m + 1}}{\partial {\vec{n}}^{m}} {\vec{s}}^{m + 1}

注意，这里等式右边两个微分顺序不能乱，前一个为矩阵，后一个为向量，调换顺序后则无法进行数学运算。
BP算法原理解析

以上矩阵亦称Jacobian矩阵，其中每一个元素的表达式如下：
BP算法原理解析

由前面推导公式可得：
BP算法原理解析

其中

将Jacobian矩阵矩阵代入

s^{m}

表达式可得：

进一步有：

而最后一层

s_{i}^{M}

可由均方误差求得：

进一步可写为：

向量和矩阵表示为：

将以上过程总结为三步：

第一步：训练数据前向传播

BP算法原理解析

第二步：误差反向传播

BP算法原理解析

第三步：权重更新

BP算法原理解析
以上就是整个多层多连接网络BP算法数学原理。

三、实例运用

以下实例是通过BP神经网络算法拟合函数曲线，代码请戳这里