BP算法

仿照生物的神经元模型，神经元接收到来自n个其他神经元的输入信号，这些输入信号带有犬只连接，神经元接收到的总输入值与神经元的阈值进行比较，然后通过**函数产生神经元的输出。
如下图所示：

BP算法

其中典型的**函数有四种sigmod, softmax, tanh, relu。现在的深度学习里面用的**函数一般是Relu.具体总结可以看我上一篇博客**函数的选择。

感知机被视为最简单形式的前馈神经网络，是一种二元线性分类器，是神经网络和支持向量机的基础。感知机由两层神经元组成，输入层接受并处理外界信息，然后传递给输出层。如图所示：

BP算法

其中 $x_{1}$ , $x_{2}$ 表示的是输入， $y$ 表示的是输出, $θ$ 是阈值， $w_{1}$ , $w_{2}$ 表示的是权值。所以有：

y = f (w_{1} x_{1} + w_{2} x_{2} - θ)

一般的，对于给定训练数据集，权值 $w_{i} (i = 1, 2, . . ., n)$ 以及阈值 $θ$ 可通过学习得到。感知机的学习规则非常简单，对于训练样例 $(x, y)$ ，若当前感知机的输出为 $\hat{y}$ ，感知机的权值将这样调整：

w_{i} \leftarrow w_{i} + △ w_{i}

△ w_{i} = η (y - \hat{y}) x_{i}

其中 $η \in (0, 1)$ 称为学习率，其中可以出如果对于样例 $(x, y)$ 预测正确，即 $\hat{y} = y$ ,则感知机不会发生变化，否则根据错误程度进行调整。需要注意的是，感知机只有输出层有**函数处理，其学习能力非常有限。

对于包含隐含层的神经网络，就可以成为多层网络。

BP算法

现在来看看BP算法。
对于给定数据集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})}$ ，其中 $x_{i} \in R^{d}, y_{i} \in R^{l}$ 。

一些变量的解释：

下图为一个拥有 $d$ 个输入神经元，l个输出神经元和q个隐含神经元的多层前馈神经网络。

BP算法

对于训练样例 $(x_{k}, y_{k})$ ，假定神经网络的的输出为 ${\hat{y}}_{k} = ({\hat{y}}_{1}^{k}, {\hat{y}}_{2}^{k}, . . ., {\hat{y}}_{l}^{k})$ ，所以有：

{\hat{y}}_{j}^{k} = f (β_{j} - θ_{j})

网络的误差为

E_{k} = \frac{1}{2} \sum_{j = 1}^{l} ({\hat{y}}_{j}^{k} - y_{j}^{k})^{2}

任意参数的更新估计式为

v \leftarrow v + △ v

下面以隐含层到输出层的连接权 $w_{h j}$ 来进行推导

BP算法基于梯度下降的策略，以目标的负梯度方向对参数进行调整，对于误差 $E_{k}$ 和给定学习率 $η$ ，有：

△ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}}

$w_{h j}$ 是先影响输出层第 $j$ 个神经元，然后再进一步影响输出 ${\hat{y}}_{j}^{k}$ 的。所以有

\frac{\partial E_{k}}{\partial w_{h j}} = \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}} \frac{\partial β_{j}}{\partial w_{h j}}

其中有

\frac{\partial β_{j}}{\partial w_{h j}} = b_{h}

其中**函数为sigmod函数所以有 $f (x) = \frac{1}{1 + e^{- x}}$
对于sigmoid函数有

f^{'} (x) = f (x) (1 - f (x))

所以有

{\hat{y}}_{j}^{k} = f (β_{j} - θ)

因此令

g_{j} = - \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}}

= - ({\hat{y}}_{j}^{k} - y_{j}^{k}) {\hat{y}}_{j}^{k} (1 - {\hat{y}}_{j}^{k})

综合得：

△ w = η g (j) b_{h}

类似的能够得到

△ θ = - η g_{j}

△ v = η e_{h} g_{j}

△ γ = - η e_{h}

其中 $e_{h}$ 表示的是隐含层的梯度。其实根据前面的结构图，我们能够得到公式 $b_{h} = f (\sum_{j = 1}^{d} w_{j} h x_{j} - γ_{h})$

所以有

e_{h} = - \frac{\partial E_{k}}{\partial b_{h}} \frac{\partial b_{h}}{\partial a_{h}}

= - \sum_{j = 1}^{l} \frac{\partial E_{k}}{\partial β_{j}} \frac{\partial β_{j}}{\partial b_{h}} f^{'} (a_{h} - γ_{h})

= - \sum_{j = 1}^{l} g_{j} w_{h j} b_{h} (1 - b_{h})

上述流程图总结如下。

BP算法

BP算法的目标是最小化训练集上的累计误差

E = \frac{1}{m} \sum_{k = 1}^{m} E_{k}

2.机器学习，周志华

3.统计学习方法，李航