卷积神经网络（CNN）探究

1、CNN介绍

1.1 卷积层简谈
1.2池化层简谈
1.3全连接层简谈

2、CNN原理剖析

2.1 网络结构

2.1.1 卷积层
2.1.2 池化层
2.1.3 全连接层

2.2 反向传播算法

2.2.1 卷积层
2.2.2 池化层
2.2.3 全连接层
2.2.4 网络参数的更新过程

3、CNN网络实例

3.1 部分代表性CNN网络结构介绍
3.2 部分具有代表性的图像分类和物体检测CNN模型对比

文献参考

1、CNN介绍

CNN的基本结构由输入层、卷积层、池化层（取样层）、全连接层及输出层构成。卷积层和池化层一般会取若干个，采用卷积层和池化层交替设置，即一个卷积层连接一个池化层，池化层之后再连接一个卷积层，一次类推。由于卷积层中输出特征面的每个神经元与其输入进行局部连接，并通过对应的连接权值与局部输入进行加权求和再加偏置项，得到该神经元的输出值，该过程等同于卷积过程，卷积神经网络也由此而得名。
卷积神经网络（CNN）探究

1.1 卷积层简谈

卷积层（convolutional layer）由多个特征面（feature map）组成，每个特征面由多个神经元（人工神经网络基本处理单位）组成，它的每个神经元通过卷积核（一种多维的权值矩阵）与上一层特征面的局部区域相连。CNN的卷积层通过卷积操作提取输入的不同特征。多层的卷积将会使特征逐步高度抽象，并被高层的卷积层所提取。如前面所说，卷积层的每个神经元通过一组权值被连接到上一层特征面的局部区域，该局部加权和通常会传递给一个非线性函数如relu函数、tanh函数等，这些非线性函数被称作**函数。在同一个输入特征面和同一个输出特征面中，CNN的权值共享，权值共享基于一个合理的假设，即如果一个特征在计算某个空间位置时候是有用的，那么它在计算另一个位置时也应是游泳的。基于这个假设，权值共享可以显著的减少参数量。

1.2池化层简谈

池化层（pooling layer）紧跟在卷积层之后，同样由多个特征面组成，它的每一个特征面唯一对应于其上一层的一个特征面，不会改变特征面的个数（即不会改变上一层的深度），通常会周期性的加在卷积层后面。池化层起到二次提取特征、减小神经网络数据体空间尺寸的作用，常用的池化方法有最大池化（max pooling）即取局部接受域中值最大的点、均值池化（mean pooling）即对局部接受域中所有值求均值、随机池化（stachastic pooling）等，池化操作通常会由一个取样核在上一层按照特定步长滑动计算来完成。

1.3全连接层简谈

在CNN结构中，经过多个卷积层和池化层之后，连接着一个或多个全连接层。全连接层的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层和池化层中具有类别区分性的局部信息。最后一层全连接层的输出值将被传递给输出层，用以最后的分类。

2、CNN原理剖析

2.1 网络结构

2.1.1 卷积层

在卷积层，上一层的特征图被一个可学习的卷积核进行卷积，然后通过一个**函数就可以得到输出特征图。每个输出特征图可以组合卷积多个特征图的值：
卷积神经网络（CNN）探究
其中， u^l_j 称为卷积层 l 的第 j 个通道的净** (Net activation), 它通过对前一层输出特征图 x^l_j进行卷积求和与偏置后得到的，x^l_j是卷积层 l 的第 j 个通道的输出. f(·) 称为**函数，通常可使用 relu 和 tanh 等函数. M_j 表示用于计算 u^l_j的输入特征图子集，k^l_ij 是卷积核矩阵， b^l_j是对卷积后特征图的偏置。对于一个输出特征图 x^l_j，每个输入特征图 x^l-1_j对应的卷积核 k^l_ij 可能不同，“*”是卷积符号。

2.1.2 池化层

池化层将每个输入特征图通过下面的公式计算输出特征图：卷积神经网络（CNN）探究
其中, u^l_j 称为下池化层 l 的第 j 通道的净**，它由前一层输出特征图 x^l-1_j 进行下采样加权、偏置后得到，β 是下池化层的权重系数, b^l_j 是下池化层的偏置项.。符号 down(·) 表示下池化函数，它通过对输入特征图 x^l-1_j 通过滑动窗口方法划分为多个不重叠的 n×n 图像块，然后对每个图像块内的像素求和、求均值或最大值，于是输出图像在两个维度上都缩小了 n 倍。

2.1.3 全连接层

在全连接网络中，将所有二维图像的特征图拼接为一维特征座位全连接网络的输入。全连接层l的输出可通过对输入加权求和并通过**函数得到：
卷积神经网络（CNN）探究
其中u^l称为全连接层l 的净**，它由前一层输出特征图 x^l−1 进行加权和偏置后得到的。w^l 是全连接网络的权重系数，b^l 是全连接层 l 的偏置项。

2.2 反向传播算法

反向传播传播算法是神经网络有监督学习中的一种常用方法，其目标是根据训练样本和期望输出来估计网络参数，对于卷积神经网络而言，主要优化卷积核参数k、池化层网络权重 β、全连接层网络权重 w 和各层的偏置参数 b 等。反向传播算法的本质在于允许我们对每个网络层计算有效误差，并由此推导出一个网络参数的学习规则，使得实际网络输出更加接近目标值。
我们以平方误差损失函数的多分类问题为例介绍反向传播算法的思路。考虑一个多分类问题的训练总误差，定义为输出端的期望输出值和实际输出值的差的平方:
卷积神经网络（CNN）探究

其中，t_n是第 n 个样本的类别标签真值，y_n 是第 n 个样本通过前向传播网络预测输出的类别标签。对于多分类问题，输出类别标签常用一维向量表示，即输入样本对应的类别标签维度为正数，输出类别标签的其他维为 0 或负数，这取决于选择的**函数类型，当**函数选为 relu, 输出标签为 0，当***函数为 tanh, 输出标签为−1。
反向传播算法主要基于梯度下降方法，网络参数首先被初始化为随机值, 然后通过梯度下降法向训练误差减小的方向调整。接下来，我们以多个 “卷积层–池化层” 连接多个全连接层的卷积神经网络为例介绍反向传播算法。首先介绍网络第 l 层的灵敏度 (Sensitivity):
卷积神经网络（CNN）探究
其中，δ^l 描述了总误差 E 怎样随着净** u^l 而变化。反向传播算法实际上通过所有网络层的灵敏度建立总误差对所有网络参数的偏导数，从而得到使得训练误差减小的方向。

2.2.1 卷积层

为计算卷积层 l 的灵敏度, 需要用下一层下池化层 l +1 的灵敏度表示卷积层 l 的灵敏度, 然后计算总误差 E 对卷积层参数 (卷积核参数 k、偏置参数 b) 的偏导数。由于下池化层的灵敏度尺寸小于卷积层的灵敏度尺寸，因此需要将下池化层 l +1 的灵敏度上池化到卷积层 l 的灵敏度大小，然后将第 l 层净**的***函数偏导与从第 l + 1 层的上池化得到的灵敏度逐项相乘。分别由式 (1) 和 (2)，通过链式求导可得第 l 层中第 j 个通道的灵敏度:
卷积神经网络（CNN）探究
其中，up(·) 表示一个上池化操作，符号◦ 表示每个元素相乘。若下池化因子为 n, 则 up(·) 将每个像素在水平和垂直方向上复制 n 次，于是就可以从 l +1 层的灵敏度上池化成卷积层 l 的灵敏度大小。函数 up(·) 可以用 Kronecker 乘积 up(x)≡ x⊗1_n×n 来实现。
然后，使用灵敏度对卷积层 l 中的参数计算偏导。对于总误差 E 对偏移量 bl j 的偏导，可以对卷积层 l 的灵敏度中所有节点进行求和来计算:
卷积神经网络（CNN）探究
其中, (p_i^l−1)_u,v 是在计算 x^l_j时，与 k^l_ij逐元素相乘的 x^l-1_i 元素。

2.2.2 池化层

&emsp: 为计算下池化层 l 的灵敏度，需要用下一层卷积层 l +1 的灵敏度表示下池化层 l 的灵敏度，然后计算总误差 E 对下池化参数权重系数 β、偏置参数 b 的偏导数。为计算我们需要下池化层 l 的灵敏度，我们必须找到当前层的灵敏度与下一层的灵敏度的对应点，这样才能对灵敏度 δ 进行递推。另外，需要乘以输入特征图与输出特征图之间的连接权值, 这个权值实际上就是卷积核的参数。分别由式 (1) 和 (2)，通过链式求导可得第 l 层第 j 个通道的灵敏度:
卷积神经网络（CNN）探究
其中，对卷积核旋转 180 度使用卷积函数计算互相关，对卷积边界进行补零处理.。
然后, 总误差对偏移量 b 的偏导与前面卷积层的一样，只要对灵敏度中所有元素的灵敏度求和即可：

对于下采样权重 β，我们先定义下采样算子
dl j = down(xl−1 j )，然后可通过下面的公式计算总误差 E 对 β 的偏导:：
卷积神经网络（CNN）探究
这里我们假定下采样层的下一层为卷积层，如果下一层为全连接层，也可以做类似的推导。

2.2.3 全连接层

全连接层 l 的灵敏度可通过下式计算：

卷积神经网络（CNN）探究
输入层的神经元灵敏度可由下面的公式计算：

总误差对偏移项的偏导如下：

接下来可以对每个神经元运用灵敏度进行权值更新。对一个给定的全连接层l，权值更新方向可用该层的输入x^l-1和灵敏度 δ^l 的内积来表示：
卷积神经网络（CNN）探究

2.2.4 网络参数的更新过程

卷积层参数可用下式子更新：

卷积神经网络（CNN）探究
池化层可用下式更新：

全连接层可用下式更新：
卷积神经网络（CNN）探究

3、CNN网络实例

3.1 部分代表性CNN网络结构介绍

AlexNet
卷积神经网络（CNN）探究

VGG16
卷积神经网络（CNN）探究

3.2 部分具有代表性的图像分类和物体检测CNN模型对比

网络模型	输入	优点	缺点
AlexNet	整张图像（需要对图像缩放到固定大小）	网络简单易于训练，对图像分类有较强的鉴别力	网络输入要求固定大小，容易破坏物体的纵横比和上下文信息
GoogLeNet	整张图像（需要对图像缩放到固定大小）	对图像分类拥有非常强的鉴别力，参数相对AlexNet较少	网络复杂，对样本数量要求较高，训练耗时
VGG	整张图像（需要对图像缩放到固定大小）	对图像分类拥有非常强的鉴别力	网络复杂，对样本数量要求过高，训练耗时，需要多次对网络参数微调
DPM	整张图像	对物体的检测具有较强的鉴别力，对形变和遮挡具有一定的处理能力	使用人工设计的HOG特征；对物体检测的精度通常比本表中其他的CNN网络低
R-CNN	图像区域	对物体检测拥有很强的鉴别力；使用包围盒回归（Bounding box regression）提高物体的定位精度	依赖于区域选择算法，网络输入图像要求固定大小，容易破坏物体的纵横比和上下文信息，训练是多阶段过程；在特定检测数据集上对网络参数进行微调、提取特征、训练 SVM (Support vector machine) 分类器、包围盒回归 (Bounding box regression); 训练时间耗时、耗存储空间
SPP-net	整张图像（不要求固定大小）	对物体检测拥有很强的鉴别力, 输入图像可以任意大小, 可保证图像的比例信息训练速度比 R-CNN 快 3 倍左右, 测试比 R-CNN快 10∼100 倍	网络结构复杂时, 池化对图像造成一定的信息丢失; SPP 层前的卷积层不能进行网络参数更新; 训练是多阶段过程: 在特定检测数据集上对网络参数进行微调、提取特征、训练 SVM 分类器、包围盒回归; 训练时间耗时、耗存储空间
Fast R-CNN	整张图像（不要求固定大小）	训练和测试都明显快于 SPP-net (除了候选区域提取以外的环节接近于实时), 对物体检测拥有很强的鉴别力, 输入图像可以任意大小, 保证图像比例信息, 同时进行分类与定位	依赖于候选区域选择, 它仍是计算瓶颈
Faster R-CNN	整张图像（不要求固定大小）	比 Fast R-CNN 更加快速, 对物体检测拥有很强的鉴别力; 不依赖于区域选择算法; 输入间; 难以解决被遮挡物体的识别问题图像可以任意大小, 保证图像比例信息, 同时进行区域选择算法、分类与定位	训练过程较复杂; 计算流程仍有较大优化空

文献参考

-[1] ZHOU Fei-Yan, JIN Lin-Peng, DONG Jun, Review of Convolutional Neural Network, 2017,Vol.40,Online Publishing No.7
-[2]常亮, 邓小明, 周明全, 武仲科, 袁野, 杨硕, 王宏安. 图像理解中的卷积神经网络. 自动化学报, 2016, 42(9): 1300−1312