详解BP神经网络

BackPropagation Neuron NetWok

BP神经网络学习算法可以说是目前最成功的神经网络学习算法。显示任务中使用神经网络时，大多数是使用BP算法进行训练.
在我看来BP神经网络就是一个”万能的模型+误差修正函数“，每次根据训练得到的结果与预想结果进行误差分析，进而修改权值和阈值，一步一步得到能输出和预想结果一致的模型。举一个例子：比如某厂商生产一种产品，投放到市场之后得到了消费者的反馈，根据消费者的反馈，厂商对产品进一步升级，优化，从而生产出让消费者更满意的产品。这就是BP神经网络的核心。
下面就让我们来看看BP算法到底是什么东西。BP网络由输入层、隐藏层、输出层组成。给定训练集D={(x₁,y₁),(x₂,y₂…(x_n,y_n)},其中x_nϵR^d，y_nϵR^l,表示输入示例由d个属性组成，输出l维实值变量。现在，我们看看如何求得输出值，以及怎么由输出值调整权值和阈值。
详解BP神经网络
神经元是以生物研究及大脑的响应机制而建立的拓扑结构网络，模拟神经冲突的过程，多个树突的末端接受外部信号，并传输给神经元处理融合，最后通过轴突将神经传给其它神经元或者效应器。神经元的拓扑结构如图：
详解BP神经网络

对于第i个神经元，X₁、X₂、…、X_j为神经元的输入，输入常为对系统模型关键影响的自变量，W₁、W₂、…、W_j为连接权值调节各个输入量的占重比。将信号结合输入到神经元有多种方式，选取最便捷的线性加权求和可得neti神经元净输入:

N e t_{i n} = \sum_{i = 1}^{n} w_{i} * x_{i}

θ

_i表示该神经元的阈值，根据生物学中的知识，只有当神经元接收到的信息达到阈值是才会被**。因此，我们将

N e t_{i n}

和

θ_{j}

进行比较，然后通过**函数处理以产生神经元的输出。
**函数：**函数这里我们不多重述。如果输出值有一定的范围约束，比如用来分类，一般我们用的最多的是Sigmod函数，它可以把输入从负无穷大到正无穷大的信号变换成0到1之间输出。如果没有约束的话，我们可以使用线性**函数(即权值相乘之和)。这样我们得到的输出为：

y_{j} = f (N e t_{i n} - θ_{j})

我们可以将公式化简一下，设第一个输入永远值为

θ

,权值为-1，则我们可以得到公式：

y_{j} = f (\sum_{i = 0}^{n} w_{i} * x_{i})

其中w₀=-1,x₀=

θ

_j,其中f为选择的**函数。
已经知道在BP神经网络模型中，我们有三层结构，输入层、隐藏层、输出层,因此输入层到隐藏层的权值，设为

v_{i h}

,隐藏层第h个神经元的阈值我们设为

γ_{h}

。隐藏层到输出层的权值，设为

w_{h j}

,输出层第j个神经元的阈值我们用

θ_{j}

表示。在下面这张图里，有d输入神经元,q个隐藏神经元，隐藏有q个隐藏神经元阈值，

l

个输出神经元，因此有

l

个输出神经元阈值。

其中

β_{j}

中的

b_{h} = f (α_{h} - θ_{h})

。隐藏层和输出层的**函数，在这里我们暂时全部用

S i g m o d

函数。
在某个训练示例

(x_{k}, y_{k})

中，假设神经网络的训练输出为

y_{k^{,}} = (y_{1}^{k^{,}}, y_{2}^{k^{,}}, \dots, y_{l}^{k^{,}})

,输出为

l

维向量，其中

y_{i}^{k^{,}} = f (β_{i} - θ_{i})

那么这次预测结果的误差我们可以用最小二乘法表示：

E_{k} = \frac{1}{2} \sum_{j = 1}^{l} (y_{j}^{k^{,}} - y_{j}^{k})^{2}

而我们现在要做的就是根据这个误差去调整

（ d + l + 1 ） q + l

个参数的值，一步一步缩小

E_{k}

。那么从现在开始，我们就要进入数学的世界了。这里我们使用最常用的算法：梯度下降法来更新参数。函数永远是沿着梯度的方向变化最快，那么我们对每一个需要调整的参数求偏导数，如果偏导数>0,则要按照偏导数相反的方向变化；如果偏导数<0，则按照此方向变化即可。于是我们使用-1*偏导数则可以得到参数需要变化的值。同时我们设定一个学习速率

η

，这个学习速率不能太快，也不能太慢。太快可能会导致越过最优解；太慢可能会降低算法的效率。(具体设多少就属于玄学调参的领域了)。因此我们可以得到一个参数调整公式：

P a r a m + = - η \frac{\partial E_{k}}{\partial P a r a m}

首先我们看看隐藏层到输出层的权值调整值：

Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}}

好，我们从上到下缕一缕这个偏导该怎么求，我们把每一个公式都罗列出来：

1.输出层到隐藏层：

α_{h} = \sum_{i = 1}^{d} v_{i h} * x_{i} \dots \dots \dots \dots \dots \dots \dots (1)

| \begin{matrix} x_{1} & x_{2} & x_{3} & \dots & x_{d} \end{matrix} | \cdot | \begin{matrix} v_{11} & v_{12} & v_{13} & \dots & v_{1 q} \\ v_{21} & v_{22} & v_{23} & \dots & w_{2 q} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ v_{d 1} & w_{d 2} & w_{d 3} & \dots & w_{d q} \end{matrix} |

2.经过隐藏层的**函数：

b_{h} = f (α_{h} - γ_{h}) \dots \dots \dots \dots \dots \dots \dots (2)

3.隐藏层到输出层：

β_{j} = \sum_{h = 1}^{q} w_{h j} * b_{h} \dots \dots \dots \dots \dots \dots \dots (3)

用矩阵表示

| \begin{matrix} b_{1} & b_{2} & b_{3} & \dots & b_{q} \end{matrix} | \cdot | \begin{matrix} w_{11} & w_{12} & w_{13} & \dots & w_{1 l} \\ w_{21} & w_{22} & w_{23} & \dots & w_{2 l} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ w_{q 1} & w_{q 2} & w_{q 3} & \dots & w_{q l} \end{matrix} |

4.经过输出层的**函数：

y_{j}^{k^{,}} = f (β_{j} - θ_{j}) \dots \dots \dots \dots \dots \dots \dots (4))

5.误差：

E_{k} = \frac{1}{2} \sum_{j = 1}^{l} (y_{j}^{k^{,}} - y_{j}^{k})^{2} \dots \dots \dots \dots \dots \dots \dots (5)

综上我们可以得知

w_{h j}

先影响

β_{j}

,再影响

y_{j}^{k^{,}}

,最后影响

E_{k}

,(一个

w

权值只会影响一个

β

)所以我们可得：

Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}} = - η \frac{\partial E_{k}}{\partial y_{j}^{k^{,}}} \cdot \frac{\partial y_{j}^{k^{,}}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial w_{h j}} \dots (6)

其中

\frac{\partial β_{j}}{\partial w_{h j}} = b_{h}

,前面提到过，

b_{h}

是第h个隐藏神经元的输出。

g_{j} = \frac{\partial E_{k}}{\partial y_{j}^{k^{,}}} \cdot \frac{\partial y_{j}^{k^{,}}}{\partial β_{j}} = (y_{j}^{k^{,}} - y_{j}^{k}) \cdot f^{^{'}} (β_{j} - θ_{j}) \dots (7)

而我们选择的**函数是

S i g m o d

函数，该函数具有一个很好的性质

f (x) = \frac{1}{1 + e^{- x}} \dots f^{^{'}} (x) = f (x) (1 - f (x)) \dots (8)

所以我们有：

f^{^{'}} (β_{j} - θ_{j}) = f (β_{j} - θ_{j}) \cdot (1 - f (β_{j} - θ_{j})) = y_{j}^{k^{^{'}}} \cdot (1 - y_{j}^{k^{^{'}}}) \dots (9)

综合

f o r m u l a (6) (7) (9)

我们可得：

Δ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}} = - η g_{i} b_{h} = - η (y_{j}^{k^{^{'}}} - y_{j}^{k}) \cdot y_{j}^{k^{^{'}}} \cdot (1 - y_{j}^{k^{^{'}}}) \cdot b_{h} \dots (10)

同理：

Δ θ_{j} = - η \frac{\partial E_{k}}{\partial θ_{j}} = - η \frac{\partial E_{k}}{\partial y_{j}^{k^{^{'}}}} \cdot \frac{\partial y_{j}^{k^{^{'}}}}{\partial θ_{j}} = η \cdot g_{j} \dots (11)

我们再看看

Δ v_{i h}

的值怎么求，还是由

f o r m u l a (1), (2), (3), (4), (5)

推导，一个

v

权值会影响所有的

β

Δ v_{i h} = - η e_{h} x_{i} \dots \dots \dots \dots (12)

Δ γ_{h} = η e_{h} \dots \dots \dots (13)

其中

e_{h} = （ \sum_{j = 1}^{l} \frac{\partial E_{k}}{\partial β_{j}} \cdot \frac{\partial β_{j}}{\partial b_{j}} ） \cdot f^{^{'}} (α_{h} - γ_{h}) = (\sum_{j = 1}^{l} (y_{j}^{k^{,}} - y_{j}^{k}) \cdot f^{^{'}} (β_{j} - θ_{j}) \cdot w_{h j}) \cdot f^{^{'}} (α_{h} - γ_{h}) \dots \dots \dots (14)

至此，我们所有得公式都推导完毕了，剩下做的就是设定一个迭代终止条件，可以是误差小于一定值时终止递归，也可以是设定迭代次数。这样一个BP神经网络模型就算是设计结束。

java实现代码和实验数据在我的github上面