神经网络（全连接）的前向和反向传播

转自我的知乎专栏：https://zhuanlan.zhihu.com/p/34378516/edit

神经网络模型是人工智能最基础的模型，它的诞生也是受益于神经科学家对猫的大脑的研究。神经网络通过自学习的方式可以获得高度抽象的，手工特征无法达到的特征，在计算机视觉领域取得了革命性的突破。而神经网络之所以最近几年取得了这么大的成功，反向传播算法是一个很重要的原因。可以说，只有深入了解了反向传播算法才可以说真正了解了神经网络的作用过程。
本文尽量用图文并茂的方式讲清楚神经网络的前向和反向传播，并用python做了实现。希望能以最易懂的方式讲清楚这两个东西。至于神经网络的基本构成，如权重，偏置，**函数，随机梯度下降等基础概念就不再细述，读者可以百度。要理解反向传播，必须得知道偏导数的数学定义，要看懂代码得有一定的python基础，最好对numpy也有一定了解。废话不多说，以下是正文。
首先构建一个最简单的神经网络如下。
神经网络（全连接）的前向和反向传播
所谓全连接，就是指第N层的每个神经元和第N-1层的每个神经元都相连，每个连接都有一个权值。
如上图，输入层有2个节点，编号依次为1,2；隐藏层也有两个节点，编号分别为3,4；输出层也是两个节点，编号为5,6。b1和b2是偏置节点。
其中的符号含义为：
$w_{j i}$ 表示第j个节点（位于第N层的非偏置节点）和第i个节点（位于第N-1层的非偏置节点）之间的权重。j是目标节点，i是源节点。
$w_{j b}$ 表示第j个节点（位于第N层的非偏置节点）和位于上一层的偏置节点之间的权重。
$a_{j}$ 表示第j个节点的输出值。
**函数假定为sigmoid，当然也可以用relu等。sigmoid函数的定义为：

s i g m o i d (x) = \frac{1}{1 + e^{- x}}

为了方便演示，我们给一些实际数据，假定输入数据

x_{1} = 0.02, x_{2} = 0.04

；期望输出也就是目标值为

t_{1} = 0.5, t_{2} = 0.9

。
权重w的初始化有很多方法，比如xaiver，msra等，这里就任意赋值了，假定初始化为

w_{31} = 0.05, w_{32} = 0.1, w_{41} = 0.15, w_{42} = 0.2, w_{53} = 0.25, w_{54} = 0.3, w_{63} = 0.35, w_{64} = 0.4

偏置项初始化为

b_{1} = 0.5, b_{2} = 0.9

w_{3 b} = 0.5, w_{4 b} = 0.5, w_{5 b} = 0.9, w_{6 b} = 0.9

前向传播

前向传播比较简单，就是向量点乘，也就是加权求和，然后经过一个**函数。

y = w * x + b

以节点3为例，节点3的输入值为

w_{31} x_{1} + w_{32} x_{2} + w_{3 b} w_{31} x_{1} + w_{32} x_{2} + w_{3 b}

节点3的输出值为

a_{3} = s i g m o i d (w_{31} x_{1} + w_{32} x_{2} + w_{3 b}) a_{3} = s i g m o i d (w_{31} x_{1} + w_{32} x_{2} + w_{3 b})

实际值为

a_{3} = s i g m o i d (0.05 * 0.02 + 0.1 * 0.04 + 0.5) = \frac{1}{1 + e^{- 0.505}} = 0.6236336

同样的节点4的输出值为

a_{4} = s i g m o i d (w_{41} x_{1} + w_{42} x_{2} + w_{4 b})

实际值为

a_{4} = s i g m o i d (0.15 * 0.02 + 0.2 * 0.04 + 0.5) = \frac{1}{1 + e^{- 0.011}} = 0.50274997

节点5的输出值为

a_{5} = s i g m o i d (w_{53} a_{3} + w_{54} a_{4} + w_{5 b})

实际值为

y_{1} = a_{5} = s i g m o i d (0.25 * 0.6236336 + 0.35 * 0.50274997 + 0.9) = \frac{1}{1 + e^{1.2318708895}} = 0.225854

节点6的输出值为

a_{6} = s i g m o i d (w_{63} a_{3} + w_{64} a_{4} + w_{6 b}) a_{6} = s i g m o i d (w_{63} a_{3} + w_{64} a_{4} + w_{6 b})

y_{2} = a_{6} = s i g m o i d (0.35 * 0.6236336 + 0.4 * 0.50274997 + 0.9) = \frac{1}{1 + e^{1.319371748}} = 0.2109228

可以看到和目标值的差距还比较大。
以下用数学公式进行表述：
定义网络的输入向量为：

\vec{x} = [\begin{matrix} x_{1} \\ x_{2} \\ 1 \end{matrix}] \vec{x} = [\begin{matrix} x_{1} \\ x_{2} \\ 1 \end{matrix}]

输出向量为：

\vec{y} = [\begin{matrix} y_{1} \\ y_{2} \end{matrix}] \vec{y} = [\begin{matrix} y_{1} \\ y_{2} \end{matrix}]

权重矩阵为：

\vec{w_{3}} = [\begin{matrix} w_{31} & w_{32} & w_{3 b} \end{matrix}]

\vec{w_{4}} = [\begin{matrix} w_{41} & w_{42} & w_{4 b} \end{matrix}]

\vec{w_{5}} = [\begin{matrix} w_{53} & w_{54} & w_{5 b} \end{matrix}]

\vec{w_{6}} = [\begin{matrix} w_{63} & w_{64} & w_{6 b} \end{matrix}]

\vec{w} = [\begin{matrix} w_{31} & w_{31} & w_{3 b} \\ w_{41} & w_{42} & w_{4 b} \\ w_{51} & w_{52} & w_{5 b} \\ w_{61} & w_{62} & w_{6 b} \end{matrix}]

**函数为：

f = s i g m o i d f = s i g m o i d

节点的输入为：

n e t_{1} = x_{1}

n e t_{2} = x_{2}

n e t_{3} = \vec{w_{3}} \cdot \vec{x}

n e t_{4} = \vec{w_{4}} \cdot \vec{x}

n e t_{5} = \vec{w_{5}} \cdot [\begin{matrix} a_{3} \\ a_{4} \\ 1 \end{matrix}]

n e t_{6} = \vec{w_{6}} \cdot [\begin{matrix} a_{3} \\ a_{4} \\ 1 \end{matrix}]

节点的输出为：

\vec{a} = [\begin{matrix} a_{3} \\ a_{4} \\ a_{5} \\ a_{6} \end{matrix}]

a_{3} = f (n e t_{3}) = f (\vec{w_{3}} \cdot \vec{x})

a_{4} = f (n e t_{4}) = f (\vec{w_{4}} \cdot \vec{x})

a_{5} = y_{1} = f (n e t_{5})

a_{6} = y_{2} = f (n e t_{6})

反向传播
进行反向传播前需要确定一个损失函数，损失函数有很多种，这里使用最常用的L2 loss的二分之一。