机器学习(周志华)——神经网络模型(一)

概要

本篇博客主要讲解了BP神经网络模型的层次结构，并在机器学习(周志华)——神经网络模型(二)中讲解BP算法和BGD、SGD和MBGD三种梯度下降算法。对于BP神经网络算法的手写代码请移步：利用BP神经网络对语音特征信号数据集进行分类

神经元模型

神经元模型是是组成神经网络模型的最基本单位。在生物神经网络领域内，神经元之间相互相连，当一个神经元兴奋时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个阈值，那么它就会被**，即兴奋起来，向其他神经元发送化学物质。1943 年，McCulloch 和 Pitts 将上述生物学中情形抽象为如下图所示的简单模型，这就是一直沿用至今的 M-P 神经元模型。神经元接收来自 $n$ 个其他神经元传递过来的输入信号 $x$ ，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值 $\sum_{i = 1}^{n} w_{i} x_{i}$ 将与神经元的阈值项 $θ$ 进行线性组合，然后通过**函数 $f$ 对得线性组合进行映射产生神经元的输出 $y = f (\sum_{i = 1}^{n} w_{i} x_{i} + θ)$
机器学习(周志华)——神经网络模型(一)

神经网络

将多个神经元模型按一定的层次结构连接起来，就能得到神经网络的模型。事实上，从计算机学科角度来看，我们可以不考虑神经网络是否真的模拟了生物神经网络，只需将一个神经网络模型看成一个包含了许多超参数的数学模型，这个模型有若干个**函数组成。
机器学习(周志华)——神经网络模型(一)
下面本文将对3层的神经网络进行具体介绍。上图给出了基本的神经网模型结构示意图。3层的神经网络模型是由输入层、隐藏层和输出层构成的。其中输入层与输出层神经元个数与输入数据密切相关。因此首先对输入到神经网络数据集进行相关说明。对于给定输入数据集表示如下：

\begin{aligned} (1) & D = {(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})} $ \end{aligned}

其中

m

代表输入数据集大小，

x_{i} \in R^{d}, y_{i} \in R^{l}

，即输入神经元的输入是一个

1 \times d

维矩阵或者

d

维向量，其表示为：

\begin{aligned} (2) & x^{(i)} = (x_{1}^{(i)}, x_{2}^{(i)}, \dots, x_{d}^{(i)}) \end{aligned}

输出神经元的输出是一个

1 \times l

维矩阵或

l

维向量，其表示为：

\begin{aligned} (3) & y^{(i)} = (y_{1}^{(i)}, y_{2}^{(i)}, \dots, y_{l}^{(i)}) \end{aligned}

即输入层神经元个数为输入数据的维数、输出层神经元个数为输入数据真实结果的维数。在以下相关介绍中，本文假定有

d

个输入层神经元，

q

个隐藏层神经元，

l

个输出层神经元。隐藏层的每个神经元都含有一个阈值项

θ_{i}

，故隐藏层的阈值项可以表示为：

\begin{aligned} (4) & θ = (θ_{1}, θ_{2}, \dots, θ_{q}) \end{aligned}

同理，输出层的阈值项可以表示为：

\begin{aligned} (5) & γ = (γ_{1}, γ_{2}, \dots, γ_{l}) \end{aligned}

同时，输入层的每个神经元与隐含层的每个神经元之间有一个连接权重，记作

v_{i j}

，表示第

i

个输入神经元与第

j

个隐藏层神经元之间的权重。故输入层与隐含层之间的连接权重可以表示为：

\begin{aligned} (6) & v = {(v^{(1)}, v^{(2)}, \dots, v^{(d)})}^{T} \end{aligned}

其中

v^{(i)}

是个

1 \times q

维向量，即

v^{(i)}

可以表示为：

\begin{aligned} (7) & v^{(i)} = (v_{1}^{(i)}, v_{2}^{(i)}, \dots, v_{q}^{(i)}) \end{aligned}

故输入层与隐藏层之间的权重可以也可以表示为一个的

d \times q

矩阵：

\begin{aligned} (8) & v = (\begin{matrix} v_{1}^{(1)} & v_{2}^{(1)} & \dots & v_{q}^{(1)} \\ ⋮ & ⋱ & ⋮ & ⋮ \\ ⋮ & ⋮ & ⋱ & ⋮ \\ v_{1}^{(d)} & v_{2}^{(d)} & \dots & v_{q}^{(d)} \end{matrix}) \end{aligned}

同理隐含层与输出层之间的连接权重可以表示

q \times l

矩阵为：

\begin{aligned} (9) & w = {(w^{(1)}, w^{(2)}, \dots, w^{(q)})}^{T} = (\begin{matrix} w_{1}^{(1)} & w_{2}^{(1)} & \dots & w_{l}^{(1)} \\ ⋮ & ⋱ & ⋮ \\ ⋮ & ⋱ & ⋮ \\ w_{1}^{(q)} & w_{2}^{(q)} & \dots & w_{l}^{(q)} \end{matrix}) \end{aligned}

其中

w^{(i)}

可以表示为：

\begin{aligned} (10) & w^{(i)} = (w_{1}^{(i)}, w_{2}^{(i)}, \dots, w_{l}^{(i)}) \end{aligned}

可以计算出第

h

个隐含层神经元的输入为：

\begin{aligned} (11) & α^{(h)} = \sum_{i = 1}^{d} v_{i}^{(h)} x^{(i)} \end{aligned}

那么第

h

个隐含层神经元的输出为：

\begin{aligned} (12) & b^{(h)} = f (α^{(h)} + θ) \end{aligned}

其中：

\begin{aligned} (13) & f (x) = \frac{1}{1 + e^{- x}} \\ (14) & f^{'} (x) = f (x) [1 - f (x)] \end{aligned}

同理，第

j

个输出层神经元的输入为：

\begin{aligned} (15) & β^{(j)} = \sum_{i = 1}^{l} w_{i}^{(j)} b^{(j)} \end{aligned}

第

j

个输出层神经元的输出为：

\begin{aligned} (16) & {\hat{y}}^{(j)} = f (β^{(j)} + γ) \end{aligned}