BP神经网络权值、阈值更新公式推导

这里记录一下BP神经网络的误差逆向传播算法：
　　1.针对特殊的一种**函数: $s i g m o i d (x) = \frac{1}{1 + e^{- x}}$ 来推导BP神经网络的权值和阈值更新公式：
　　给定训练集: $D = {(x_{1}, y_{1}), (x_{2}, y_{2}) . . ., (x_{m}, y_{m})}, x_{i} \in R^{d}, y_{i} \in R^{l}$ ,即输入属性序列由 $d$ 个属性描述，输出 $l$ 维实值向量。为了方便讨论，图1给出了拥有 $d$ 个输入神经元， $l$ 个输出神经元， $q$ 个隐层神经元的多层前馈网络结构，其中输出层为第 $j$ 个神经元的阈值用 $θ$ 表示，隐层第 $h$ 个神经元用 $φ_{h}$ 表示。输入层第 $i$ 个神经元与隐层第 $h$ 个神经元之间的连接权为 $v_{i h}$ ,隐层第 $h$ 个神经元与输出层第 $j$ 个神经元之间的连接权为 $ω_{h j}$ 。
BP神经网络权值、阈值更新公式推导
　　　　　　　　　　　图1 BP神经网络即算法中的符号变量
记隐层第 $h$ 个神经元接收到的输入为 $α_{h} = \sum_{i = 1}^{d} v_{i h} x_{i}$ ,输出层的第 $j$ 个神经元接收到的输入为: $β_{j} = \sum_{h = 1}^{q} ω_{h j} b_{h}$ ,其中 $b_{h}$ 为隐层第 $h$ 个神经元的输出。现在假设隐层和输出层都使用Sigmoid函数：
　　　对训练例 $(x_{k}, y_{k})$ ,假定神经网络的输出为： $\hat{y_{k}} = (\hat{y_{1}}, \hat{y_{2}}, . . . . . . \hat{y_{l}})$ ,即：
　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　 $\hat{y_{k}} = (β_{j} - θ_{j})$ 　　　　　　　　　　　　　　　(1)
　则网络在 $(x_{k}, y_{k})$ 上的均方误差为：
　　　　　　　　　　　　　　　　　　　　　　　　　 $E_{k} = \frac{1}{2} \sum_{j = 1}^{l} (\hat{y_{j}^{k}} - y_{j}^{k})$ 　　　　　　　　　　　(2)
　图1中的网络中有 $(d + l + 1) q + l$ 个参数需要确定。BP是一个迭代学习算法，在迭代的每一轮采用广义的感知机学习规则对参数进行更新估计。下面我们以图1中的隐层到输出层的连接权值 $ω_{h j}$ 为例来进行推导：
　BP算法基于梯度下降(gradient descent)策略,以目标的负梯度方向对参数进行调整，对公式2中的误差 $E_{k}$ ,给定学习率 $η$ ,有：
　　　　　　　　　　　　　　　　　　　　　　　　　　 $Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}}$ 　　　　　　　　　　　　　　(3)
注意到 $w_{h j}$ 先影响到第 $j$ 个输出神经元的输入值 $β_{j}$ ,再影响到其输出值 $\hat{y_{j}^{k}}$ ,然后影响到 $E_{k}$ ,有：
　　　　　　　　　　　　　　　　　　　　　　　　　　 $\frac{\partial E_{k}}{\partial w_{h j}} = \frac{\partial E_{k}}{\partial \hat{y_{j}^{k}}} \cdot \frac{\partial \hat{y_{j}^{k}}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial w_{h j}}$ 　　　　　　　　　　　(4)
根据 $β_{j}$ 的定义有： $\frac{\partial β_{j}}{\partial w_{h j}} = b_{h}$ ,并且Sigmoid函数有一个很好的性质： ${f (x)}^{'} = f (x) (1 - f (x)$ ，于是根据公式(1)和(2)，有：
　　　　　　　　　　　　　　　 $g_{j} = \frac{\partial E_{k}}{\partial \hat{y_{j}^{k}}} \cdot \frac{\partial \hat{y_{j}^{k}}}{\partial β_{j}} = - (\hat{y_{j}^{k}} - y_{j}^{k}) f^{'} (β_{j} - α_{j}) = (y_{j}^{k} - \hat{y_{j}^{k}}) \hat{y_{j}^{k}} (1 - \hat{y_{j}^{k}})$ 　　(5)
将公式(5)带入到公式(4)，再带入到公式(3)中，就得到了BP算法中关于 $w_{h j}$ 的更新公式：
　　　　　　　　　　　　　　　　　　　　　　　　　　　 $Δ w_{h j} = η g_{j} b_{h}$ 　　　　　　　　　　　　　　(6)
而 $Δ θ_{j}$ 的更新公式为：
　　　　　　　　　　　　　　　 $Δ θ_{j} = - η \frac{\partial E_{k}}{\partial θ_{j}} = - η \frac{\partial E_{k}}{\partial \hat{y_{j}^{k}}} \cdot \frac{\partial \hat{y_{j}^{k}}}{\partial θ_{j}} = - η (y_{j}^{k} - \hat{y_{j}^{k}}) \cdot \hat{y_{j}^{k}} \cdot (1 - \hat{y_{j}^{k}}) = - η g_{j}$ (7)
BP神经网络的输出层到隐层的连接权值 $Δ v_{i h}$ 的更新估计式为：
　　　　　　　　　　　　　　　　　　　　 $Δ v_{i h} = - η \frac{\partial E_{k}}{\partial v_{i h}} = - η \frac{\partial E_{k}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial α_{h}} \cdot \frac{\partial α_{h}}{\partial v_{i h}}$
　　　　　　　　　　　　　　　　　　　　 $= - η \sum_{j = 1}^{l} \frac{\partial E_{k}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial b_{h}} f^{'} (α_{h} - γ_{h}) x_{i} = η b_{h} (1 - b_{h})) \sum_{j = 1}^{l} ω_{h j} g_{j}$
　　　　　　　　　　　　　　　　　　　　 $= η e_{h} x_{i}$
BP神经网络的隐层第 $h$ 个神经元的阈值 $γ_{h}$ 的更新公式为：
　　　　　　　　　　　　　　　　　　　　 $Δ γ_{h} = - η \frac{\partial E_{k}}{\partial γ_{h}} = - η \sum_{j = i}^{l} \frac{\partial E_{k}}{\partial β_{i}} \cdot \frac{\partial β_{i}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial γ_{h}} = - η e_{h}$
学习率 $η \in (0, 1)$ 控制着算法每一轮迭代中的更新步长；