中南大学自动化学院“智能控制与优化决策”课题组-第五章神经网络小结

1. 试述常见的函数，试述将线性函数 $f(x)=w^Tx$ 用作神经元函数的缺陷

1.1什么是**函数

如下图，如下图，在神经元中，输入的 inputs 通过加权，求和后，还被作用了一个函数，这个函数就是**函数 Activation Function.
中南大学自动化学院“智能控制与优化决策”课题组-第五章神经网络小结

1.2**函数的作用

如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这也是为什么不使用线性**函数的原因。
如果使用的话，**函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

1.3常见的**函数

Sigmoid**函数
sigmoid 是使用范围最广的一类**函数，具有指数函数形状，它在物理意义上最为接近生物神经元。此外， $(0, 1)$ 的输出还可以被表示作概率，或用于输入的归一化，代表性的如 Sigmoid 交叉熵损失函数。
然而，sigmoid 也有其自身的缺陷，最明显的就是饱和性。从下图可以看到，其两侧导数逐渐趋近于 0 。具有这种性质的称为软饱和**函数。具体的，饱和又可分为左饱和与右饱和。与软饱和对应的是硬饱和。
Tanh函数
tanh 是双曲正切函数，tanh 函数和 sigmod 函数的曲线是比较相近的，咱们来比较一下看看。首先相同的是，这两个函数在输入很大或是很小的时候，输出都几乎平滑，梯度很小，不利于权重更新；不同的是输出区间，tanh 的输出区间是在 (-1,1) 之间，而且整个函数是以 0 为中心的，这个特点比 sigmod 的好。
一般二分类问题中，隐藏层用 tanh 函数，输出层用 sigmod 函数。不过这些也都不是一成不变的，具体使用什么**函数，还是要根据具体的问题来具体分析，还是要靠调试的。

详情看下图：
中南大学自动化学院“智能控制与优化决策”课题组-第五章神经网络小结

ReLU
ReLU 全称是：Rectified linear unit, 是目前比较流行的**函数，它保留了类似 step 那样的生物学神经元机制：输入超过阈值才会激发。虽然在 0 点不能求导，但是并不影响其在以梯度为主的反向传播中发挥有效作用。有关 ReLU 的详细介绍，请移步论文：《Rectified Linear Units Improve Restricted Boltzmann Machines》还有一篇介绍比较全的博客：神经网络回顾 - Relu **函数.
图示如下：
Leaky ReLU
由于 ReLU 在小于零的部分全部归为 0 ，这样极易造成神经元死亡，因此 Andrew L. Maas 等人在论文《Rectifier Nonlinearities Improve Neural Network Acoustic Models》中提出了新的**函数，在小于 0 的方向增加一个非常小的斜率。如下图：

2.感知机与多层网络

2.1感知机

感知机（Perceptron）由两层神经元组成，如图所示，输入层接收外界输入信号后传递给输出层，输出层是 M−PM−P 神经元，亦称为“阈值逻辑单元”。
中南大学自动化学院“智能控制与优化决策”课题组-第五章神经网络小结
更一般地，给定训练数据集，权重 $w_i$ 以及阈值 $\theta$ 可通过学习得到。阈值 $\theta$ 可看作一个固定输入为 $-1.0$ 的“哑结点”多对应的连接权重 $w_{n+1}$ . 这样，权重和阈值学习就可统一为权重的学习。感知机的学习规则非常简单，对训练样例 $(x,y)$ ,若当前感知机的输出为 $\hat y$ , 则感知机权重将最优调整：
$w_i \leftarrow w_i +\Delta w_i \\ \Delta w_i=\eta(y-\hat y)x_i$
其中 $\eta \in (0,1)$ 称为“学习率（learing rate）” .从上式可以看出，若感知机对训练样例 $(x,y)$ 预测正确，则感知机不发生变化，否则将根据错误的程度进行权重调整。感知机只有输出层神经元进行**函数处理，即只拥有一层功能神经元，其学习能力非常有限。只能处理线性可分的情况，无法处理非线性可分的情况。

2.2多层网络

要解决非线性可分问题，需要考虑使用多层功能神经元。输出层和输入层之间的一层神经元，被称为隐层或隐含层，隐含层和输出层神经元都是拥有**函数的功能神经元。
中南大学自动化学院“智能控制与优化决策”课题组-第五章神经网络小结
更一般地，常见的神经网络如下图，每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。这样的神经网络结果通常称为“多层前馈神经网络”（multi-layer feedforward neural networks），其中输入层神经元接收外界输入，隐层与输出层神经元对信号进行加工，最终结果由输出层神经元输出；换言之，输入层神经元仅是接受输入，不进行函数处理，隐层与输出层包含功能神经元。
中南大学自动化学院“智能控制与优化决策”课题组-第五章神经网络小结

3. 试述使用sigmoid**函数的神经元与对数几率回归的联系。

两者都是跟 $sigmoid$ 函数有关，但是在对数几率回归里， $sigmoid$ 函数的作用是将线性回归模型产生的预测值（实值）转化为 $0/1$ 值. $sigmoid$ 函数是用于代替单位阶跃函数，因为 $sigmoid$ 函数单调且可微；在神经元模型中， $sigmoid$ 函数作为“**函数”用以处理产生神经元的输出，因为神经元模型中的神经元收到来自 $n$ 个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，采用“**函数”能将输出值转化为 $0/1$ 值。

3. 对于图5.7（102页）中的，试推导出BP算法中的更新公式

对训练例 $(\bm x_k,\bm y_k)$ , 假定神经网络的输出为 $\hat y_k=(\hat y_{1}^{k},\hat y_{2}^{k},...,\hat y_{l}^{k})$ ,即 $\hat y_{j}^{k}=f(\beta_j-\theta_j)$ ,
则网络在 $(\bm x_k,\bm y_k)$ 上的均方误差为：
$E_k=\frac{1}{2}\sum_{j=1}^{l}(\hat y_{j}^{k}-\hat y_{j}^{k})^2$
任意参数 $v$ 的更新估计式为 $v \leftarrow v+ \Delta v$
对于误差 $E_k$ ,给定学习率 $\eta$ ，有 $\Delta w_{hj}=-\eta \frac{\partial E_k}{\partial w_{hj}}.$
可以推导出：
$\frac{\partial E_k} {\partial w_{hj}}=\frac{\partial E_k} {\partial \hat y_{j}^{k}}.\frac{\partial \hat y_{j}^{k}} {\partial \beta _j}.\frac{\partial \beta _j} {\partial w_{hj}} . \\ \ \ \frac{\partial \beta _j} {\partial w_{hj}}=b_h \\ f'(x)=f(x)(1-f(x)) \\ g_j= -\frac{\partial E_k} {\partial \hat y_{j}^{k}}.\frac{\partial \hat y_{j}^{k}} {\partial \beta _j} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =-(\hat y_{j}^{k}-y_{j}^{k})f'(\beta_j-\theta _j)\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\hat y_{j}^{k}(1-\hat y_{j}^{k})(y_{j}^{k}-\hat y_{j}^{k})$
接着得到BP算法中关于 $w_{hj}$ 的更新公式 $\Delta w_{hj}=\eta {g_j}{b_h.}$
类似可得 $\Delta \theta_j=-\eta g_j ,\\ \Delta v_{ih}=\eta e_h x_i,\\ \Delta \gamma=-\eta e_h,$
其中 $e_h=\frac{\partial E_k}{\partial b_h}.\frac{\partial b_h}{\partial \alpha_h } \\ =-\sum_{j=1}^{l}\frac{\partial E_k}{\partial \beta_j}.\frac{\partial \beta_j}{\partial b_h}f'(\alpha_h-\gamma_h) \\ =\sum_{j=1}^{l}w_{hj}g_jf'(\alpha_h-\gamma_h)\\ =b_h(1-b_h)\sum_{j=1}^{l}w_{hj}g_j$

4. 试述标准BP算法和累计BP算法，试编程实现标准BP算法和累计BP算法,在西瓜数据集上分别用这两个算法训练一个单隐层神经网络，并进行比较

需注意的是， BP 算法的目标是要最小化训练集 $D$ 上的累积误差
$E=\frac{1}{m}\sum_{k=1}^{m}E_k$ 但我们上面介绍的"标准BP 算法"每次仅针对一个训练样例更新连接权和阈值，也就是说，算法的更新规则是基于单个的 $E_k$ 推导而得.果类似地推导出基于累积误差最小化的更新规则，就得到了累积误差逆传播(accumulated error backpropagation)算法.累积BP 算法与标准BP 算法都很常用.一般来说，标准BP 算法每次更新只针对单个样例,参数更新得非常频繁，而且对不同样例进行更新的效果可能出现"抵消"现象.因此，为了达到同样的累积误差极小点,标准BP 算法往往需进行更多次数的迭代.累积BP 算法直接针对累积误差最小化，它在读取整个训练集 $D$ 一遍后才对参数进行更新，其参数更新的频率低得多.但在很多任务中，累积误差下降到一定程度之后，进一步下降会非常缓慢，这时标准BP 往往会更快获得较好的解，尤其是在训练集 $D$ 非常大时更明显.

5. 试述如何缓解BP神经网络的过拟合现象

由于 BP（BackPropagation）神经网络具有强大的表示能力，PB神经网络经常遭遇过拟合，其训练误差持续降低，但测试误差却可能上升。有两种策略常用来缓解BP网络的过拟合：

第一种策略是“早停”（early stopping）:将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。
第二种策略是“正则化”（regularization），其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接权与阈值的平方和。

6. 试述RBF网络，RNN循环神经网络的概念和特点

RBF是一种单隐层前馈神经网络，它使用径向基函数作为隐层神经元**函数，而输出层则是对隐层神经元输出的线性组合，假定输入为 $d$ 维向量 $\bm x$ ,输出为实值，则RBF可表示为
$\varphi(\bm x)=\sum_{i=1}^{q}\rho(\bm x,\bm c_i)$
其中 $q$ 为隐层神经元个数， $c_i和w_i$ 分别是第 $i$ 个隐层神经元所对应的中心和权重， $\rho(x,c_i)$ 是径向基函数，这是沿某种径向对称的函数，通常定义为样本 $x$ 到数据中心 $c_i$ 之间欧氏距离的单调函数.常见的高斯径向基函数形如：
$\rho (x,c_i)=e^{-\beta_i||x-c_i||^2}$ 具有足够多隐层神经元的RBF神经网络能以任意精度逼近任意连续函数.
RNN循环神经网络，与前馈神经网络不同，“递归神经网络”（Recurrent Neural Networks）允许网络出现环形结构，可让一些神经元的输出反馈回来作为输入信号，也就是网络在 $t$ 时刻的输出状态不仅和输入有关，还和 $t-1$ 时刻的网络状态有关，从而能处理与时间有关的动态变化。Elman 网络是最常用的递归神经网络之一，其结构与多层前馈网络相似，但隐层神经元的输出被反馈回来，与下一时刻的输入层神经元提供的信号一起，作为隐层神经元下一时刻的输入。隐层神经元通常采用 $Sigmoid$ **函数，而网络的训练则常通过推广的BP算法进行。

7. 试述卷积神经网络的卷积、下采样（池化）过程，试述卷积神经网络的架构

从计算机的角度来看，图像实际上是一个二维矩阵，卷积神经网络所做的工作就是采用卷积、池化等操作从二维数组中提取特征，并对图像进行识别。理论上来说，只要是能转换成二维矩阵的数据，都可以利用卷积神经网络来识别和检测。比如声音文件，可以分割成很短的分段，每段音阶的高低可以转换成数字，这样整段的声音文件就可以转换为二维矩阵，类似的还有自然语言中的文本数据，医药实验中的化学数据等等，都可以利用卷积神经网络来实现识别和检测。

卷积：卷积是卷积神经网络最核心的概念，也是其名称的由来。卷积用来提取图像的局部特征，它是一个数学计算方法,下面动图形象的展现了卷积过程。
池化
池化的英文是pooling，还有一种叫法是down sampling（下采样），不得不说这两个名词的翻译非常忠于原意，但这种直白的翻译很不好理解。用通俗的语言来描述：池化就是将特征矩阵划分为若干小块，从每个子矩阵中选取一个值替代该子矩阵，这样做的目的是压缩特征矩阵，简化接下来的计算。池化有两种方式：Max Pooling（最大值池化）和Average Pooling（平均值池化），前者是从子矩阵中取最大值，后者是取平均值。

池化比卷积更加容易理解，上面的动图模拟了一个简单的池化过程，黄色的特征矩阵被划分为四个子矩阵，然后按照池化方式从每个子矩阵选取一个数值组成池化矩阵。最大值池化是经常被使用的池化方式，因为选取区域最大值能很好的保持原图的特征。
卷积神经网络架构
下面介绍一种常见的卷积神经网络CNN的基本架构，如图所示，网络输入是一个 $32×32$ 的手写数字图像，输出是其识别结果，CNN 复合多个“卷积层”和“采样层”对输入信号进行加工。然后在连接层实现与输出目标之间的映射。每个卷积层都包含多个特征映射，每个特征映射是一个由多个神经元构成的“平面”，通过一种卷积滤波器提取输入的一种特征。