飞桨第三周学习笔记

卷积神经网络

这周主要讲的卷积神经网络。包括：

卷积（Convolution）
池化（Pooling）
ReLU**函数
批归一化（Batch Normalization）
丢弃法（Dropout）

手写数字识别任务，应用的是全连接层，将一张图片上的所有像素点展开成一个一维向量输入网络，存在两个问题：

输入数据的空间信息被丢失。空间上相邻的像素点往往具有相似的RGB值，RGB的各个通道之间的数据通常密切相关，但是转化成1维向量时，这些信息被丢失。同时，图像数据的形状信息中，可能隐藏着某种本质的模式，但是转变成1维向量输入全连接神经网络时，这些模式也会被忽略。
模型参数过多，容易发生过拟合。在手写数字识别案例中，每个像素点都要跟所有输出的神经元相连接。当图片尺寸变大时，输入神经元的个数会按图片尺寸的平方增大，导致模型参数过多，容易发生过拟合。

为了解决这两个问题：我们引入卷积神经网络进行特征提取，既能提取到相邻像素点之间的特征模式，又能保证参数的个数不随图片尺寸变化。

卷积

卷积（Convolution）

这一小节将为读者介绍卷积算法的原理和实现方案，并通过具体的案例展示如何使用卷积对图片进行操作，主要涵盖如下内容：

卷积计算
填充（padding）
步幅（stride）
感受野（Receptive Field）
多输入通道、多输出通道和批量操作

卷积计算

卷积是数学分析中的一种积分变换的方法，在图像处理中采用的是卷积的离散形式。这里需要说明的是，在卷积神经网络中，卷积层的实现方式实际上是数学中定义的互相关（cross-correlation）运算，与数学分析中的卷积定义有所不同，这里跟其他框架和卷积神经网络的教程保持一致，都使用互相关运算作为卷积的定义，具体的计算过程如图7 所示。

图7：卷积计算过程

说明：

卷积核（kernel）也被叫做滤波器（filter），假设卷积核的高和宽分别为 $k_h$ 和 $k_w$ ，则将称为 $k_h\times k_w$ 卷积，比如 $3\times5$ 卷积，就是指卷积核的高为3, 宽为5。

如图7（a）所示：左边的图大小是 $3\times3$ ，表示输入数据是一个维度为 $3\times3$ 的二维数组；中间的图大小是 $2\times2$ ，表示一个维度为 $2\times2$ 的二维数组，我们将这个二维数组称为卷积核。先将卷积核的左上角与输入数据的左上角（即：输入数据的(0, 0)位置）对齐，把卷积核的每个元素跟其位置对应的输入数据中的元素相乘，再把所有乘积相加，得到卷积输出的第一个结果

$0\times1 + 1\times2 + 2\times4 + 3\times5 = 25 \ \ \ \ \ \ \ (a)$

如图7（b）所示：将卷积核向右滑动，让卷积核左上角与输入数据中的(0,1)位置对齐，同样将卷积核的每个元素跟其位置对应的输入数据中的元素相乘，再把这4个乘积相加，得到卷积输出的第二个结果，

$0\times2 + 1\times3 + 2\times5 + 3\times6 = 31 \ \ \ \ \ \ \ (b)$

如图7（c）所示：将卷积核向下滑动，让卷积核左上角与输入数据中的(1, 0)位置对齐，可以计算得到卷积输出的第三个结果，

$0\times4 + 1\times5 + 2\times7 + 3\times8 = 43 \ \ \ \ \ \ \ (c)$

如图7（d）所示：将卷积核向右滑动，让卷积核左上角与输入数据中的(1, 1)位置对齐，可以计算得到卷积输出的第四个结果，

$0\times5 + 1\times6 + 2\times8 + 3\times9 = 49 \ \ \ \ \ \ \ (d)$

卷积核的计算过程可以用下面的数学公式表示，其中 $a$ 代表输入图片， $b$ 代表输出特征图， $w$ 是卷积核参数，它们都是二维数组， $\sum{u,v}{\ }$ 表示对卷积核参数进行遍历并求和。

$b[i, j] = \sum_{u,v}{a[i+u, j+v]\cdot w[u, v]}$

举例说明，假如上图中卷积核大小是 $2\times 2$ ，则 $u$ 可以取0和1， $v$ 也可以取0和1，也就是说：
$b[i, j] = a[i+0, j+0]\cdot w[0, 0] + a[i+0, j+1]\cdot w[0, 1] + a[i+1, j+0]\cdot w[1, 0] + a[i+1, j+1]\cdot w[1, 1]$

读者可以自行验证，当 $[i, j]$ 取不同值时，根据此公式计算的结果与上图中的例子是否一致。

【思考】当卷积核大小为 $3 \times 3$ 时，b和a之间的对应关系应该是怎样的？

其它说明：

在卷积神经网络中，一个卷积算子除了上面描述的卷积过程之外，还包括加上偏置项的操作。例如假设偏置为1，则上面卷积计算的结果为：

$0\times1 + 1\times2 + 2\times4 + 3\times5 \mathbf{\ + 1} = 26$
$0\times2 + 1\times3 + 2\times5 + 3\times6 \mathbf{\ + 1} = 32$
$0\times4 + 1\times5 + 2\times7 + 3\times8 \mathbf{\ + 1} = 44$
$0\times5 + 1\times6 + 2\times8 + 3\times9 \mathbf{\ + 1} = 50$

填充（padding）

在上面的例子中，输入图片尺寸为 $3\times3$ ，输出图片尺寸为 $2\times2$ ，经过一次卷积之后，图片尺寸变小。卷积输出特征图的尺寸计算方法如下：

$H_{out} = H - k_h + 1$
$W_{out} = W - k_w + 1$

如果输入尺寸为4，卷积核大小为3时，输出尺寸为 $4-3+1=2$ 。读者可以自行检查当输入图片和卷积核为其他尺寸时，上述计算式是否成立。通过多次计算我们发现，当卷积核尺寸大于1时，输出特征图的尺寸会小于输入图片尺寸。说明经过多次卷积之后尺寸会不断减小。为了避免卷积之后图片尺寸变小，通常会在图片的外围进行填充(padding)，如图8 所示。

图8：图形填充

如图8（a）所示：填充的大小为1，填充值为0。填充之后，输入图片尺寸从 $4\times4$ 变成了 $6\times6$ ，使用 $3\times3$ 的卷积核，输出图片尺寸为 $4\times4$ 。
如图8（b）所示：填充的大小为2，填充值为0。填充之后，输入图片尺寸从 $4\times4$ 变成了 $8\times8$ ，使用 $3\times3$ 的卷积核，输出图片尺寸为 $6\times6$ 。

如果在图片高度方向，在第一行之前填充 $p_{h1}$ 行，在最后一行之后填充 $p_{h2}$ 行；在图片的宽度方向，在第1列之前填充 $p_{w1}$ 列，在最后1列之后填充 $p_{w2}$ 列；则填充之后的图片尺寸为 $(H + p_{h1} + p_{h2})\times(W + p_{w1} + p_{w2})$ 。经过大小为 $k_h\times k_w$ 的卷积核操作之后，输出图片的尺寸为：
$H_{out} = H + p_{h1} + p_{h2} - k_h + 1$
$W_{out} = W + p_{w1} + p_{w2} - k_w + 1$

在卷积计算过程中，通常会在高度或者宽度的两侧采取等量填充，即 $p_{h1} = p_{h2} = p_h,\ \ p_{w1} = p_{w2} = p_w$ ，上面计算公式也就变为：
$H_{out} = H + 2p_h - k_h + 1$
$W_{out} = W + 2p_w - k_w + 1$
卷积核大小通常使用1，3，5，7这样的奇数，如果使用的填充大小为 $p_h=(k_h-1)/2, p_w=(k_w-1)/2$ ，则卷积之后图像尺寸不变。例如当卷积核大小为3时，padding大小为1，卷积之后图像尺寸不变；同理，如果卷积核大小为5，使用padding的大小为2，也能保持图像尺寸不变。

感受野（Receptive Field）

输出特征图上每个点的数值，是由输入图片上大小为 $k_h\times k_w$ 的区域的元素与卷积核每个元素相乘再相加得到的，所以输入图像上 $k_h\times k_w$ 区域内每个元素数值的改变，都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动，都会影响输出点的数值变化。比如 $3\times3$ 卷积对应的感受野大小就是 $3\times3$ 。

多输出通道场景

一般来说，卷积操作的输出特征图也会具有多个通道 $C_{out}$ ，这时我们需要设计 $C_{out}$ 个维度为 $C_{in}\times{k_h}\times{k_w}$ 的卷积核，卷积核数组的维度是 $C_{out}\times C_{in}\times{k_h}\times{k_w}$ ，如 图11 所示。

对任一输出通道 $c_{out} \in [0, C_{out})$ ，分别使用上面描述的形状为 $C_{in}\times{k_h}\times{k_w}$ 的卷积核对输入图片做卷积。
将这 $C_{out}$ 个形状为 $H_{out}\times{W_{out}}$ 的二维数组拼接在一起，形成维度为 $C_{out}\times{H_{out}}\times{W_{out}}$ 的三维数组。

说明：

通常将卷积核的输出通道数叫做卷积核的个数。

图11：多输出通道计算过程

批量操作

在卷积神经网络的计算中，通常将多个样本放在一起形成一个mini-batch进行批量操作，即输入数据的维度是 $N\times{C_{in}}\times{H_{in}}\times{W_{in}}$ 。由于会对每张图片使用同样的卷积核进行卷积操作，卷积核的维度与上面多输出通道的情况一样，仍然是 $C_{out}\times C_{in}\times{k_h}\times{k_w}$ ，输出特征图的维度是 $N\times{C_{out}}\times{H_{out}}\times{W_{out}}$ ，如 图12 所示。

图12：批量操作