全连接神经网络的前向传播和反向传播推导（配图理解）

什么是全连接神经网络？

全连接神经网络是指任意两个相邻层之间的神经元全部互相连接。如下图所示：

图 1

如何计算全连接神经网络的输出？

在进行计算前，我们先对一些变量进行说明，如下图所示：

全连接神经网络的前向传播和反向传播推导（配图理解）

图 2

首先是整个神经网络的输入，我们用 $x_1,x_2,x_3...x_n$ 来表示神经网络的输入，在上图中输入是： $x_1,x_2,x_3$ 。为了方便计算我们还可以用向量表示:

$X= \left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right]$

其次是神经网络的权重，我们用 $w_{ij}$ 表示，其中 i 是源神经元节点编号， j 是目的神经元节点编号， $w_{ij}$ 表示神经元 i 跟神经元 j 连接的权重。在上图中，节点1根节点4之间的权重为 $w_{14}$ 。同样输入层和隐层之间的权重矩阵以及隐层和输出层之间的权重矩阵也可以用向量表示：
$W_1 = \left[ \begin{matrix} w_{14} & w_{24} & w_{34} \\ w_{15} & w_{25} & w_{35} \\ w_{16} & w_{26} & w_{36} \\ w_{17} & w_{27} & w_{37} \\ \end{matrix} \right] W_2 = \left[ \begin{matrix} w_{48} & w_{58} & w_{68} & w_{78} \\ w_{49} & w_{59} & w_{69} & w_{79} \\ \end{matrix} \right]$
需要注意的是权重矩阵不是随便排列的，这个在下面会提到。

之后是神经网络隐层的输出，我们用 $a_1,a_2,...a_l$ 表示，在上图中，隐藏层的输出为： $a_4,a_5,a_6,a_7$ ，为了能更好的理解，我们直接用节点编号作为下标。用向量表示为:
$\vec{a} =\left[ \begin{matrix} a_4 \\ a_5 \\ a_6 \\ a_7 \end{matrix} \right]$
最后是神经网络的输出，我们用 $y_1,y_2,...y_m$ 来表示，在上图中输出是： $y_1,y_2$ ，我们同样可以用向量表示：
$Y = \left[\begin{matrix} y_1 \\ y_2 \end{matrix} \right]$
既然我们已经将整个神经网络的输入、权重、中间变量、输出全部介绍完了，接下来，我们真正开始介绍如何从输入经过一系列计算得到输出。

首先看一张图：

全连接神经网络的前向传播和反向传播推导（配图理解）

图 3

这张图展示了经过神经元的数据如何进行计算并输出。

首先是神经元的输入： $x_1,x_2,...x_n$ ，然后是跟每一个输入所对应的权重： $w_1,w_2,...w_n$ ，神经元中的两个符号分别代表两种对输入数据的操作，首先是 $\sum$ 求和符号，它代表的是输入数据跟权重的乘积累和，即： $\sum_{i=1}^n x_iw_i$ ，我们用 $net$ 表示，即 $net=\sum_{i=1}^n x_iw_i$ ；另一个符号 $\sigma$ 代表的是一个**函数，前一步的输出作为**函数的输入，经过**函数的计算后得到输出 $y$ 。

**函数不懂的同学可自行百度，这里不再赘述。只需要知道**函数是神经网络引入的非线性因素，目的是使神经网络可以解决非线性问题。

**函数有很多种，这里我们以sigmoid函数为例，即：
$\sigma(x) = \frac{1}{1+e^{-x}} \qquad \tag{1}$
那么经过神经元的输出为：
$\begin{aligned} y &= \sigma(net) \\ &= \sigma(\sum_{i=1}^n x_iw_i) \\ &= \frac{1}{1+e^{-\sum_{i=1}^n x_iw_i}} \end{aligned} \tag{2}$
这个公式别看最后计算挺复杂，其实只有两步运算。

神经元输入跟对应权重乘积再累加
将上一步结果经过**函数得到神经元输出

上面介绍的是单个神经元的输入输出计算，接下来我们结合具体的例子再来理解一下：

全连接神经网络的前向传播和反向传播推导（配图理解）

还是这张图，这里我们来计算一下隐藏层节点4的输出 $a_4$ ：
$\begin{aligned} a_4 &= \sigma(net) \\ &= \sigma(x_1w_{14}+x_2w_{24}+x_3w_{34}) \end{aligned} \tag{3}$
同理我们可以计算出隐藏层所有节点的输出 $a_4,a_5,a_6,a_7$ ，之后我们再来计算一下输出层节点8的输出值 $y_1$ ：
$y_1 = \sigma(a_4w_{48}+a_5w_{58}+a_6w_{68}+a_7w_{78}) \tag{4}$
同理可计算出 $y_2$ ：
$y_1 = \sigma(a_4w_{49}+a_5w_{59}+a_6w_{69}+a_7w_{79}) \tag{5}$
以上就是整个神经元从输入到输出的计算过程。

上面的方法必须逐个计算每个神经元的输入输出，其实我们还可以用更简单的方式–矩阵计算。这里我们把前面介绍的矩阵表达直接拿过来：
$X= \left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right] W_1 = \left[ \begin{matrix} w_{14} & w_{24} & w_{34} \\ w_{15} & w_{25} & w_{35} \\ w_{16} & w_{26} & w_{36} \\ w_{17} & w_{27} & w_{37} \\ \end{matrix} \right]$
这样一来，我们就可以更简单的计算隐藏层的输出值：
$\begin{aligned} \vec{a} &= \sigma(W_1X) \\ &= \sigma(\left[ \begin{matrix} w_{14} & w_{24} & w_{34} \\ w_{15} & w_{25} & w_{35} \\ w_{16} & w_{26} & w_{36} \\ w_{17} & w_{27} & w_{37} \\ \end{matrix} \right]\left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right] ) \\ &= \sigma(\left[ \begin{matrix} x_1w_{14}+x_2w_{24}+x_3w_{34} \\ x_1w_{15}+x_2w_{25}+x_3w_{35} \\ x_1w_{16}+x_2w_{26}+x_3w_{36} \\ \end{matrix} \right]) \\ &= \left[ \begin{matrix} \sigma(x_1w_{14}+x_2w_{24}+x_3w_{34}) \\ \sigma(x_1w_{15}+x_2w_{25}+x_3w_{35}) \\ \sigma(x_1w_{16}+x_2w_{26}+x_3w_{36})\end{matrix} \right] \\ &= \left[ \begin{matrix} a_4 \\ a_5 \\ a_6 \\ a_7 \end{matrix} \right] \end{aligned} \tag{6}$ a=σ(W1X)=σ(⎣⎢⎢⎡w14w15w16w17w24w25w26w27w34w35w36w37⎦⎥⎥⎤⎣⎡x1x2x3⎦⎤)=σ(⎣⎡x1w14+x2w24+x3w34x1w15+x2w25+x3w35x1w16+x2w26+x3w36⎦⎤)=⎣⎡σ(x1w14+x2w24+x3w34)σ(x1w15+x2w25+x3w35)σ(x1w16+x2w26+x3w36)⎦⎤=⎣⎢⎢⎡a4a5a6a7⎦⎥⎥⎤(6)
瞧！该矩阵的第一行不正是我们前面求出的第4个神经元的输出值吗。

同理我们还可以根据矩阵计算出输出层的 $Y$ 值：
$\begin{aligned} Y &= \sigma(W_2\vec{a}) \\ &= \sigma(\left[ \begin{matrix} w_{48} & w_{58} & w_{68} & w_{78} \\ w_{49} & w_{59} & w_{69} & w_{79} \\ \end{matrix} \right]\left[ \begin{matrix} a_4 \\ a_5 \\ a_6 \\ a_7 \end{matrix} \right] ) \\ &= \sigma(\left[ \begin{matrix} a_4w_{48}+a_5w_{58}+a_6w_{68}+a_7w_{78} \\ a_4w_{49}+a_5w_{59}+a_6w_{69}+a_7w_{79} \\\end{matrix}\right]) \\ &= \left[ \begin{matrix} \sigma(a_4w_{48}+a_5w_{58}+a_6w_{68}+a_7w_{78}) \\ \sigma(a_4w_{49}+a_5w_{59}+a_6w_{69}+a_7w_{79})\end{matrix}\right] \\ &= \left[ \begin{matrix} y_1 \\ y_2 \end{matrix}\right] \end{aligned} \tag{7}$
其中 $W_2$ 是隐藏层到输出层的权重矩阵， $\vec{a}$ 是隐藏层输出值。结果跟我们之前的推导一模一样。

到此为止，全连接神经网络的前向计算已经全部推导完毕。

全连接神经网络的反向传播算法推导

我们将所有输出层节点的误差平方和作为目标函数：
$E_d=\frac{1}{2}\sum_{i=1}^m(y_i-\hat{y}_i)^2 \tag{8}$
其中 $E_d$ 代表损失函数， $m$ 代表输出层神经元个数， $y_i$ 代表第i个神经元的实际值， $\hat{y}_i$ 代表模型预测值。

接下来用梯度下降算法来优化目标函数：
$w_{ij} \leftarrow w_{ij} - \alpha \frac{\partial{E}_d}{\partial{w}_{ij}} \tag{9}$
这个是我们梯度更新的公式，可以更新任一权重。之后我们会介绍如何用矩阵更新一组权重。

假设 $net_j$ 是神经元节点 j 的加权输入：
$\begin{aligned} net_j &= w_{1j}x_{1j}+w_{2j}x_{2j}+...+w_{nj}x_{nj} \\ &= \sum_{i=1}^n w_{ij}x_{ij} \end{aligned} \tag{10}$
其中 $w_{ij}$ 是第 i 个节点到第 j 个节点的权重， $x_{ij}$ 是第 i 个节点到第 j 个节点的输入。

全连接神经网络的前向传播和反向传播推导（配图理解）

图 4

还是前面这张图，希望能通过这张图看清楚 $net_j$ 在神经网络中的位置，在这里 $net_j$ 就相当于上图中的 $\sum$ 的位置。通过这张图还要理清楚函数的链式关系：误差 $E_d$ 是 $\hat{y_i}$ 的函数， $\hat{y}$ 是 $net$ 的函数， $net$ 是 $w_i$ 的函数；目的是为了下面的链式求导铺垫。

接下来求损失函数对 $w_{ij} $ 的偏导数：
$\begin{aligned} \frac{\partial{E}_d}{\partial{w}_{ij}} &= \frac{\partial{E}_d}{\partial{net_j}} \frac{\partial{net_j}}{\partial{w_{ij}}} \\ &= \frac{\partial{E}_d}{\partial{net_j}} \frac{\partial{\sum_{i=1}^n w_{ij}x_{ij}}}{\partial{w_{ij}}} \\ &= \frac{\partial{E}_d}{\partial{net_j}} x_{ij} \end{aligned} \tag{11}$
为了求得其偏导数，需要分两种情况进行讨论：输出层和隐层

1.输出层权值训练
$\begin{aligned} \frac{\partial{E_d}}{\partial{net_j}} &= \frac{\partial{E_d}}{\partial{\hat{y_j}}}\frac{\partial{\hat{y_j}}}{\partial{net_j}} \\ &= \frac{\partial}{\partial{\hat{y_j}}}\frac{1}{2}\sum_{i=1}^m(y_i-\hat{y}_i)^2 \frac{\partial\sigma(net_j)}{\partial{net_j}} \\ &= -(y_j-\hat{y_j}) \hat{y_j}(1-\hat{y_j}) \end{aligned} \tag{12}$
这里的 $\sigma$ **函数用的是sigmoid函数，故其导数为 $\sigma(1-\sigma)$ ,上式第二行第二项就是这样的来的。

令 $\delta{}_{j} = -\frac{\partial{E_d}}{\partial{net_j}}$ ，即：
$\delta{}_{j} = (y_j-\hat{y_j}) \hat{y_j}(1-\hat{y_j}) \tag{13}$
最后将上述公式带入梯度下降公式可得：
$\begin{aligned}w_{ij} &\leftarrow w_{ij} - \alpha \frac{\partial{E_d}}{\partial{w_{ij}}} \\&= w_{ij} + \alpha \delta{}_{j}x_{ij} \\&= w_{ij} + \alpha (y_j-\hat{y_j}) \hat{y_j}(1-\hat{y_j})x_{ij} \\\end{aligned} \tag{14}$
这个就是更新输出层权值的公式；

2.隐藏层权值训练

这里我们先定义节点 j 的所有直接下游节点集合为 $K$ , 从下图中我们可以明显看出，节点3的直接下游节点为{6,7,8}；

全连接神经网络的前向传播和反向传播推导（配图理解）

图 5

（注：图 5只是为了便于理解隐藏层权值训练过程，所有的实际计算均以图 2主）

从上图可以看出，权值 $w_{ij}$ 通过影响节点 j 的输出可以直接影响到节点 j 的所有直接下游节点,于是：
$\begin{aligned} \frac{\partial{E_d}}{net_j} &= \sum_{k\in K} \frac{\partial{E_d}}{net_k} \frac{\partial{net_k}}{net_j} \\ &= \sum_{k\in K} -\delta{}_{k} \frac{\partial{net_k}}{\partial{a_j}} \frac{\partial{a_j}}{\partial{net_j}} \\ &= \sum_{k\in K} -\delta{}_{k} w_{jk}a_j(1-a_j) \\ &= -a_j(1-a_j)\sum_{k\in K} \delta{}_{k} w_{jk} \end{aligned} \tag{15}$
再将 $\delta{}_{j} = -\frac{\partial{E_d}}{\partial{net_j}}$ 带入：
$\delta{}_{j} = a_j(1-a_j)\sum_{k\in K} \delta{}_{k} w_{jk} \tag{16}$
最后带入梯度下降公式：
$\begin{aligned} w_{ij} &\leftarrow w_{ij} - \alpha \frac{\partial{E_d}}{\partial{w_{ij}}} \\ &= w_{ij} - \alpha \frac{\partial{E}_d}{\partial{net_j}} \frac{\partial{net_j}}{\partial{w_{ij}}} \\ &= w_{ij} + \alpha \delta{}_{j}x_{ij} \\ &= w_{ij} + \alpha a_j(1-a_j)x_{ij}\sum_{k\in K} \delta{}_{k} w_{jk} \\ \end{aligned} \tag{17}$
我们就得到了隐藏层的权值更新公式；

显然通过上面的方法需要一个个更新神经元的权值，非常麻烦；接下来我们介绍用矩阵的方式进行计算。

全连接神经网络的前向传播和反向传播推导（配图理解）

令：
$\vec{x} = \left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right] \qquad\vec{a} = \left[ \begin{matrix} a_4 \\ a_5 \\ a_6 \\ a_7 \end{matrix} \right] \qquad\vec{\hat{y}} = \left[ \begin{matrix} \hat{y_1} \\ \hat{y_2} \end{matrix} \right] \qquad\vec{y} = \left[ \begin{matrix} y_1 \\ y_2 \end{matrix} \right] \qquad \\ W_1 = \left[ \begin{matrix} w_{14} & w_{24} & w_{34} \\w_{15} & w_{25} & w_{35} \\w_{16} & w_{26} & w_{36} \\w_{17} & w_{27} & w_{37} \\ \end{matrix} \right]\qquad W_2 = \left[ \begin{matrix} w_{48} & w_{58} & w_{68} & w_{78} \\w_{49} & w_{59} & w_{69} & w_{79} \\ \end{matrix} \right] \\\vec{\delta{}^{(2)}} = \left[ \begin{matrix} \delta{}_{1}^{(2)} \\\delta{}_{2}^{(2)} \\ \delta{}_{3}^{(2)} \\ \delta{}_{4}^{(2)} \end{matrix} \right]\qquad\vec{\delta{}^{(3)}} = \left[ \begin{matrix} \delta{}_{1}^{(3)} \\\delta{}_{2}^{(3)} \end{matrix} \right]$ x=⎣⎡x1x2x3⎦⎤a=⎣⎢⎢⎡a4a5a6a7⎦⎥⎥⎤y^=[y1^y2^]y=[y1y2]W1=⎣⎢⎢⎡w14w15w16w17w24w25w26w27w34w35w36w37⎦⎥⎥⎤W2=[w48w49w58w59w68w69w78w79]δ(2)=⎣⎢⎢⎢⎡δ1(2)δ2(2)δ3(2)δ4(2)⎦⎥⎥⎥⎤δ(3)=[δ1(3)δ2(3)]

将公式13和公式16用向量表示为：
$\vec{\delta} = \vec{\hat{y}}(1-\vec{\hat{y}})(\vec{y}-\vec{\hat{y}}) \tag{18} \\$

$\vec{\delta}^{(l)} = \vec{a}^{(l)}(1-\vec{a}^{(l)})W^T\vec{\delta}^{(l+1)} \tag{19}$

权重更新的向量化表示为：
$\begin{aligned}W \leftarrow W + \alpha \vec{\delta}\vec{x}^T \end{aligned} \tag{20}$
偏置项更新的向量化表示为：
$\vec{b} \leftarrow \vec{b} + \alpha \vec{\delta} \tag{21}$
接下来我们举例说明 $W_1,W_2$ 的更新是怎样计算的：

先计算 $\vec{\delta}^{(3)}$ ：
$\begin{aligned}\vec{\delta}^{(3)} &= \vec{\hat{y}}(1-\vec{\hat{y}})(\vec{y}-\vec{\hat{y}}) \\&= \left[ \begin{matrix} \hat{y_1} \\ \hat{y_2} \end{matrix} \right] (1-\left[ \begin{matrix} \hat{y_1} \\ \hat{y_2} \end{matrix} \right])(\left[ \begin{matrix} y_1 \\ y_2 \end{matrix} \right] -\left[ \begin{matrix} \hat{y_1} \\ \hat{y_2} \end{matrix} \right]) \\&= \left[ \begin{matrix} \hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1) \\ \hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)\end{matrix}\right]\end{aligned}$
然后更新 $W_2$ ：
$\begin{aligned}W_2 &\leftarrow W_2 + \alpha \vec{\delta}\vec{x}^T \\&= W_2 + \alpha \vec{\delta}{}^{(3)}\vec{a}^T \\&= \left[ \begin{matrix} w_{48} & w_{58} & w_{68} & w_{78} \\w_{49} & w_{59} & w_{69} & w_{79} \\ \end{matrix} \right] + \alpha \left[ \begin{matrix} \hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1) \\ \hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)\end{matrix}\right] \left[ \begin{matrix} a_4 & a_5 & a_6 & a_7 \end{matrix} \right] \\&= \left[ \begin{matrix} w_{48} & w_{58} & w_{68} & w_{78} \\w_{49} & w_{59} & w_{69} & w_{79} \\ \end{matrix} \right] + \alpha \left[ \begin{matrix} \hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_4 & \hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_5 & \hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_6 & \hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_7 \\\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_4 & \hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_5 & \hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_6 & \hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_7\end{matrix} \right] \\&= \left[\begin{matrix} w_{48}+\alpha\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_4 & w_{58}+\alpha\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_5 & w_{68}+\alpha\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_6 & w_{78}+\alpha\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)a_7 \\ w_{49}+\alpha\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_4 & w_{49}+\alpha\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_5 & w_{49}+\alpha\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_6 & w_{49}+\alpha\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)a_7 \end{matrix}\right]\end{aligned}$ W2←W2+αδxT=W2+αδ(3)aT=[w48w49w58w59w68w69w78w79]+α[y^1(1−y^1)(y1−y^1)y^2(1−y^2)(y2−y^2)][a4a5a6a7]=[w48w49w58w59w68w69w78w79]+α[y^1(1−y^1)(y1−y^1)a4y^2(1−y^2)(y2−y^2)a4y^1(1−y^1)(y1−y^1)a5y^2(1−y^2)(y2−y^2)a5y^1(1−y^1)(y1−y^1)a6y^2(1−y^2)(y2−y^2)a6y^1(1−y^1)(y1−y^1)a7y^2(1−y^2)(y2−y^2)a7]=[w48+αy^1(1−y^1)(y1−y^1)a4w49+αy^2(1−y^2)(y2−y^2)a4w58+αy^1(1−y^1)(y1−y^1)a5w49+αy^2(1−y^2)(y2−y^2)a5w68+αy^1(1−y^1)(y1−y^1)a6w49+αy^2(1−y^2)(y2−y^2)a6w78+αy^1(1−y^1)(y1−y^1)a7w49+αy^2(1−y^2)(y2−y^2)a7]
之后求 $\vec{\delta}^{(2)}$ ：
$\begin{aligned}\vec{\delta}^{(2)} &= \vec{a}^{(2)}(1-\vec{a}^{(2)})W_2^T\vec{\delta}^{(3)} \\&= \left[ \begin{matrix} a_4 \\ a_5 \\ a_6 \\ a_7 \end{matrix} \right] (1-\left[ \begin{matrix} a_4 \\ a_5 \\ a_6 \\ a_7 \end{matrix} \right])\left[ \begin{matrix} w_{48} & w_{49} \\ w_{58} & w_{59} \\w_{68} & w_{69} \\ w_{78} & w_{79} \\ \end{matrix} \right] \left[ \begin{matrix} \hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1) \\ \hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)\end{matrix}\right] \\&= \left[ \begin{matrix} a_4(1-a_4) \\ a_5(1-a_5) \\ a_6(1-a_6) \\ a_7(1-a_7) \end{matrix} \right] \left[ \begin{matrix} w_{48}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{49}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2) \\ w_{58}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{59}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2) \\w_{68}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{69}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2) \\w_{78}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{79}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2) \end{matrix} \right] \\&= \left[ \begin{matrix}a_4(1-a_4)(w_{48}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{49}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)) \\a_5(1-a_5)(w_{58}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{59}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)) \\a_6(1-a_6)(w_{68}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{69}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)) \\a_7(1-a_7)(w_{78}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{79}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2))\end{matrix} \right]\end{aligned}$ δ(2)=a(2)(1−a(2))W2Tδ(3)=⎣⎢⎢⎡a4a5a6a7⎦⎥⎥⎤(1−⎣⎢⎢⎡a4a5a6a7⎦⎥⎥⎤)⎣⎢⎢⎡w48w58w68w78w49w59w69w79⎦⎥⎥⎤[y^1(1−y^1)(y1−y^1)y^2(1−y^2)(y2−y^2)]=⎣⎢⎢⎡a4(1−a4)a5(1−a5)a6(1−a6)a7(1−a7)⎦⎥⎥⎤⎣⎢⎢⎡w48y^1(1−y^1)(y1−y^1)+w49y^2(1−y^2)(y2−y^2)w58y^1(1−y^1)(y1−y^1)+w59y^2(1−y^2)(y2−y^2)w68y^1(1−y^1)(y1−y^1)+w69y^2(1−y^2)(y2−y^2)w78y^1(1−y^1)(y1−y^1)+w79y^2(1−y^2)(y2−y^2)⎦⎥⎥⎤=⎣⎢⎢⎡a4(1−a4)(w48y^1(1−y^1)(y1−y^1)+w49y^2(1−y^2)(y2−y^2))a5(1−a5)(w58y^1(1−y^1)(y1−y^1)+w59y^2(1−y^2)(y2−y^2))a6(1−a6)(w68y^1(1−y^1)(y1−y^1)+w69y^2(1−y^2)(y2−y^2))a7(1−a7)(w78y^1(1−y^1)(y1−y^1)+w79y^2(1−y^2)(y2−y^2))⎦⎥⎥⎤
最后更新 $W_1$ ：
$\begin{aligned}W_1 &\leftarrow W_1 + \alpha \vec{\delta}^{(2)}\vec{x}^T \\&=\left[ \begin{matrix} w_{14} & w_{24} & w_{34} \\w_{15} & w_{25} & w_{35} \\w_{16} & w_{26} & w_{36} \\w_{17} & w_{27} & w_{37} \\ \end{matrix} \right]+\alpha \left[ \begin{matrix}a_4(1-a_4)(w_{48}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{49}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)) \\a_5(1-a_5)(w_{58}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{59}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)) \\a_6(1-a_6)(w_{68}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{69}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2)) \\a_7(1-a_7)(w_{78}\hat{y}_1(1-\hat{y}_1)(y_1-\hat{y}_1)+w_{79}\hat{y}_2(1-\hat{y}_2)(y_2-\hat{y}_2))\end{matrix} \right] \left[ \begin{matrix} x_1 & x_2 & x_3\end{matrix} \right] \\...\end{aligned}$ W1...←W1+αδ(2)xT=⎣⎢⎢⎡w14w15w16w17w24w25w26w27w34w35w36w37⎦⎥⎥⎤+α⎣⎢⎢⎡a4(1−a4)(w48y^1(1−y^1)(y1−y^1)+w49y^2(1−y^2)(y2−y^2))a5(1−a5)(w58y^1(1−y^1)(y1−y^1)+w59y^2(1−y^2)(y2−y^2))a6(1−a6)(w68y^1(1−y^1)(y1−y^1)+w69y^2(1−y^2)(y2−y^2))a7(1−a7)(w78y^1(1−y^1)(y1−y^1)+w79y^2(1−y^2)(y2−y^2))⎦⎥⎥⎤[x1x2x3]
全部展开太过复杂，不再展开。

到这里我们就全连接神经网络前向传播和反向传播全部推导完毕。

参考：

【1】零基础入门深度学习(3) - 神经网络和反向传播算法