神经网络图解+公式

定义**函数 $\text{sigmoid}\left( \right)$
$g\left( z \right) =\text{sigmoid}\left( z \right) =\left( 1+e^{-z} \right) ^{-1}$

图中第2层为隐藏层，其各个神经元入下所示，
$a_1^{\left( 2 \right)}=g\left( \boldsymbol{\Theta }_{10}^{\left( 1 \right)}x_0+\boldsymbol{\Theta }_{11}^{\left( 1 \right)}x_1+\boldsymbol{\Theta }_{12}^{\left( 1 \right)}x_2+\boldsymbol{\Theta }_{13}^{\left( 1 \right)}x_3 \right) \\ a_2^{\left( 2 \right)}=g\left( \boldsymbol{\Theta }_{20}^{\left( 1 \right)}x_0+\boldsymbol{\Theta }_{21}^{\left( 1 \right)}x_1+\boldsymbol{\Theta }_{22}^{\left( 1 \right)}x_2+\boldsymbol{\Theta }_{23}^{\left( 1 \right)}x_3 \right) \\ a_3^{\left( 2 \right)}=g\left( \boldsymbol{\Theta }_{30}^{\left( 1 \right)}x_0+\boldsymbol{\Theta }_{31}^{\left( 1 \right)}x_1+\boldsymbol{\Theta }_{32}^{\left( 1 \right)}x_2+\boldsymbol{\Theta }_{33}^{\left( 1 \right)}x_3 \right)$

将第2层神经元组成一个向量 $\boldsymbol{a}^{\left( 2 \right)}$
$\boldsymbol{a}^{\left( 2 \right)}=\left[ \begin{array}{c} a_0^{\left( 2 \right)}=1\\ a_1^{\left( 2 \right)}\\ a_2^{\left( 2 \right)}\\ a_3^{\left( 2 \right)}\\ \end{array} \right]$

将输入特征x,组成一组向量 $\boldsymbol{x}$ ，注意多了一个默认的 $x_0=1$
$\boldsymbol{x}=\left[ \begin{array}{c} x_0=1\\ x_1\\ x_2\\ x_3\\ \end{array} \right]$
将第 $j$ 层后的权重系数，组成矩阵 $\boldsymbol{\Theta }^{\left( j \right)}$ ,其维度是(第 $j+1$ 层的元素数量) $\times$ (第 $j$ 层的元素数量+1),其中的元素不包括偏置元素。例如下面的 $\boldsymbol{\Theta }^{\left( 1 \right)}$ ，维度是 $3\times4$
$\boldsymbol{\Theta }^{\left( 1 \right)}=\left[ \begin{matrix}{} \boldsymbol{\Theta }_{10}^{\left( 1 \right)}& \boldsymbol{\Theta }_{11}^{\left( 1 \right)}& \boldsymbol{\Theta }_{12}^{\left( 1 \right)}& \boldsymbol{\Theta }_{13}^{\left( 1 \right)}\\ \boldsymbol{\Theta }_{20}^{\left( 1 \right)}& \boldsymbol{\Theta }_{21}^{\left( 1 \right)}& \boldsymbol{\Theta }_{22}^{\left( 1 \right)}& \boldsymbol{\Theta }_{23}^{\left( 1 \right)}\\ \boldsymbol{\Theta }_{30}^{\left( 1 \right)}& \boldsymbol{\Theta }_{31}^{\left( 1 \right)}& \boldsymbol{\Theta }_{32}^{\left( 1 \right)}& \boldsymbol{\Theta }_{33}^{\left( 1 \right)}\\ \end{matrix} \right]$

以此类推，所以有入下公式，其中的1，为默认存在的偏置项。
$\boldsymbol{a}^{\left( 2 \right)}=\left[ \begin{array}{c} 1\\ g\left( \boldsymbol{\Theta }^{\left( 1 \right)}\boldsymbol{x} \right)\\ \end{array} \right]$

$\boldsymbol{a}^{\left( 3 \right)}=\left[ \begin{array}{c} 1\\ g\left( \boldsymbol{\Theta }^{\left( 2 \right)}\boldsymbol{a}^{\left( 2 \right)} \right)\\ \end{array} \right]$

$\boldsymbol{y}=g\left( \boldsymbol{\Theta }^{\left( 3 \right)}\boldsymbol{a}^{\left( 3 \right)} \right)$

注意，只有在计算下一层时，才会给当前层添加一个隐藏的1，也就是说， $\boldsymbol{a}^{\left( 2 \right)}$ 有两个意思，一个是图中显示的
$\boldsymbol{a}^{\left( 2 \right)}=\left[ \begin{array}{c} a_1^{\left( 2 \right)}\\ a_2^{\left( 2 \right)}\\ a_3^{\left( 2 \right)}\\ \end{array} \right] =g\left( \boldsymbol{\varTheta }^{\left( 1 \right)}\boldsymbol{x} \right)$

另一个意思是为了计算下一层神经元，添加的隐藏的偏置1。

$\boldsymbol{a}^{\left( 2 \right)}=\left[ \begin{array}{c} a_0^{\left( 2 \right)}=1\\ a_1^{\left( 2 \right)}\\ a_2^{\left( 2 \right)}\\ a_3^{\left( 2 \right)}\\ \end{array} \right] =\left[ \begin{array}{c} 1\\ g\left( \boldsymbol{\varTheta }^{\left( 1 \right)}\boldsymbol{x} \right)\\ \end{array} \right]$