Bp神经网络 - 爱码网

什么是BP网络

BP神经网络，BP即Back Propagation的缩写，也就是反向传播的意思，顾名思义，将什么反向传播？文中将会解答。不仅如此，关于隐层的含义文中也会给出个人的理解。最后会用Java实现的BP分类器作为其应用以加深印象。
　　很多初学者刚接触神经网络的时候都会到网上找相关的介绍，看了很多数学原理之后还是云里雾里，然后会琢磨到底这个有什么用？怎么用？于是又到网上找别人写的代码，下下来之后看一眼发现代码写的很糟糕，根本就理不清，怎么看也看不懂，于是就放弃了。作为过来人，本人之前在网上也看过很多关于BP网络的介绍，也下载了别人实现的代码下来研究，原理都一样，但是至今为止没有看到过能令人满意的代码实现。于是就有了这篇文章，不仅有原理也有代码，对节点的高度抽象会让代码更有可读性。

CSDN博客编辑器终于可以编写数学公式了！第一次使用Markdown编辑器，感觉爽歪歪，latex数学公式虽然写起来麻烦，不过很灵活，排版也漂亮~在这里贴一个Markdown输入数学公式的教程http://ttang.name/2014/05/04/markdown-and-mathjax/很全的说！

BP网络的数学原理

　　下面将介绍BP网络的数学原理，相比起SVD的算法推导，这个简直就是小菜一碟，不就是梯度吗求个导就完事了。首先来看看BP网络长什么样，这就是它的样子：
　　 Bp神经网络
为了简单起见，这里只介绍只有一个隐层的BP网络，多个隐层的也是一样的原理。这个网络的工作原理应该很清楚了，首先，一组输入x1、x2、…、xm

来到输入层，然后通过与隐层的连接权重产生一组数据s1、s2、…、sn作为隐层的输入，然后通过隐层节点的θ(⋅)**函数后变为θ(sj)其中sj表示隐层的第j个节点产生的输出，这些输出将通过隐层与输出层的连接权重产生输出层的输入，这里输出层的处理过程和隐层是一样的，最后会在输出层产生输出y¯¯¯j，这里j是指输出层第j个节点的输出。这只是前向传播的过程，很简单吧？在这里，先解释一下隐层的含义，可以看到，隐层连接着输入和输出层，它到底是什么？它就是特征空间，隐层节点的个数就是特征空间的维数，或者说这组数据有多少个特征。而输入层到隐层的连接权重则将输入的原始数据投影到特征空间，比如sj就表示这组数据在特征空间中第j个特征方向的投影大小，或者说这组数据有多少份量的j特征。而隐层到输出层的连接权重表示这些特征是如何影响输出结果的，比如某一特征对某个输出影响比较大，那么连接它们的权重就会比较大。关于隐层的含义就解释这么多，至于多个隐层的，可以理解为特征的特征。
　　前面提到**函数θ(⋅),一般使用S形函数（即sigmoid函数），比如可以使用log-sigmoid：θ(s)=11+e−s
Bp神经网络

或者tan-sigmoid：θ(s)=es−e−ses+e−s
Bp神经网络

　　前面说了，既然在输出层产生输出了，那总得看下输出结果对不对吧或者距离预期的结果有多大出入吧？现在就来分析一下什么东西在影响输出。显然，输入的数据是已知的，变量只有那些个连接权重了，那这些连接权重如何影响输出呢？现在假设输入层第i个节点到隐层第j个节点的连接权重发生了一个很小的变化Δwij，那么这个Δwij将会对sj产生影响，导致sj也出现一个变化Δsj，然后产生Δθ(sj)，然后传到各个输出层，最后在所有输出层都产生一个误差Δe

。所以说，权重的调整将会使得输出结果产生变化，那么如何使这些输出结果往正确方向变化呢？这就是接下来的任务：如何调整权重。对于给定的训练样本，其正确的结果已经知道，那么由输入经过网络的输出和正确的结果比较将会有一个误差，如果能把这个误差将到最小，那么就是输出结果靠近了正确结果，就可以说网络可以对样本进行正确分类了。怎样使得误差最小呢？首先，把误差表达式写出来，为了使函数连续可导，这里最小化均方根差，定义损失函数如下：
　　

L (e) = 12 S S E = 12 \sum j = 0 k e 2 j = 12 \sum j = 0 k (y ¯ ¯ ¯ j - y j) 2

　　用什么方法最小化L？跟SVD算法一样，用随机梯度下降。也就是对每个训练样本都使权重往其负梯度方向变化。现在的任务就是求L对连接权重w的梯度。
　　用w1ij表示输入层第i个节点到隐层第j个节点的连接权重，w2ij表示隐层第i个节点到输出层第j个节点的连接权重，s1j表示隐层第j个节点的输入，s2j表示输出层第j个几点的输入，区别在右上角标，1表示第一层连接权重，2表示第二层连接权重。那么有
　　

\partial L \partial w 1 i j = \partial L \partial s 1 j \cdot \partial s 1 j \partial w 1 i j

由于

s 1 j = \sum i = 1 m x i \cdot w 1 i j

所以

\partial s 1 j \partial w 1 i j = x i

代入前面式子可得
　

\partial L \partial w 1 i j = x i \cdot \partial L \partial s 1 j

接下来只需求出∂L∂s1j即可。
由于s1j对所有输出层都有影响，所以

\partial L \partial s 1 j = \sum i = 1 k \partial L \partial s 2 i \cdot \partial s 2 i \partial s 1 j

由于

s 2 i = \sum j = 0 n θ (s 1 j) \cdot w 2 j i

所以
　　　

\partial s 2 i \partial s 1 j = \partial s 2 i \partial θ (s 1 j) \cdot \partial θ (s 1 j) \partial s 1 j = w 2 j i \cdot θ' (s 1 j)

代入前面的式子可得
　　　

\partial L \partial s 1 j = \sum i = 1 k \partial L \partial s 2 i \cdot w 2 j i \cdot θ' (s 1 j) = θ' (s 1 j) \cdot \sum i = 1 k \partial L \partial s 2 i \cdot w 2 j i

现在记

δ l i = \partial L \partial s l i

则隐层δ为

δ 1 j = θ' (s 1 j) \cdot \sum i = 1 k δ 2 i \cdot w 2 j i

输出层δ为

δ 2 i = \partial L \partial s 2 i = \partial \sum k j = 0 12 (y ¯ ¯ ¯ j - y j) 2 \partial s 2 i = (y ¯ ¯ ¯ i - y i) \cdot \partial y ¯ ¯ ¯ i \partial s 2 i = e i \cdot \partial y ¯ ¯ ¯ i \partial s 2 i = e i \cdot θ' (s 2 i)

到这一步，可以看到是什么反向传播了吧？没错，就是误差e！
反向传播过程是这样的：输出层每个节点都会得到一个误差e，把e作为输出层反向输入，这时候就像是输出层当输入层一样把误差往回传播，先得到输出层δ，然后将输出层δ根据连接权重往隐层传输，即前面的式子：

δ 1 j = θ' (s 1 j) \cdot \sum i = 1 k δ 2 i \cdot w 2 j i

　现在再来看第一层权重的梯度：
　

\partial L \partial w 1 i j = x i \cdot δ 1 j

　第二层权重梯度：
　

\partial L \partial w 2 i j = \partial L \partial s 2 j \cdot \partial s 2 j \partial w 2 i j = δ 2 j \cdot θ (s 1 i)

　可以看到一个规律：每个权重的梯度都等于与其相连的前一层节点的输出（即xi和θ(s1i)）乘以与其相连的后一层的反向传播的输出（即δ1j和δ2j）。如果看不明白原理的话记住这句话即可！
　这样反向传播得到所有的δ以后，就可以更新权重了。更直观的BP神经网络的工作过程总结如下：
　

上图中每一个节点的输出都和权重矩阵中同一列（行）的元素相乘，然后同一行（列）累加作为下一层对应节点的输入。
　为了代码实现的可读性，对节点进行抽象如下：
　 Bp神经网络

　这样的话，很多步骤都在节点内部进行了。
　当θ(s)=11+e−s时，
　

θ' (s) = θ (s) \cdot (1 - θ (s)) = S O u t \cdot (1 - S O u t)

　当θ(s)=es−e−ses+e−s时，
　

θ' (s) = 1 - θ (s) 2 = 1 - S 2 O u t

BP网络原理部分就到这，接下来要根据上图中的神经元模型用代码实现BP网络，然后对Iris数据集进行分类。完整的代码见github：https://github.com/jingchenUSTC/ANN

文章完全摘自点击打开链接 https://blog.csdn.net/zhongkejingwang/article/details/44514073 BP神经网络的数学原理及其算法实现

辅助阅读文章

人工神经网络（ANN）简述 https://www.jianshu.com/p/f69e16df2623