步长大于1时卷积神经网的反向传播

关于卷积神经网络的正向和反向传播网上已经有了大量的技术指导，但是绝大部分都止步于卷积核步长为1，且通道数为1的简单的示意性的推导，当步长为2时，大多数的教程都语焉不详，或直接跳过。我在这里就对步长为2以上的卷积操作进行详细讨论。本文假设读者已经基本掌握神经网络的链式求导法则，所以不会再讲这些细节。另外，本文只考虑卷积操作的正向和反向传播，如果想对池化层的相应过程做了解可以直接移步参考文献。

申明：本文所涉及的卷积不对卷积核做180°翻转操作。

1. 一些记号

我们以 $l$ 代表层数， $H^{l}$ ， $W^{l}$ 代表第 $l$ 层图像的长和宽， $n^{l}$ 代表第 $l$ 层的通道数。 $w^{l}$ 代表第 $l$ 层的卷积核，它的形状为 $（ k_{1} ， k_{2} ， n^{l})$ ，而 $b^{l}$ 是偏置项，形状为 $（ 1 ， 1 ， n^{l})$ 。步长用 $s^{l}$ 表示，由于我们只看其中一层的传播的，所以下文忽略这个步长的上标 $l$ ，用 $s$ 表示。 $Z^{l}$ 是**前的线性组合， $A^{l}$ 代表**后的输出，有 $A^{l} = g (Z^{l})$ ，而 $g (\cdot)$ 则是**函数。其中， $Z^{l}$ 和 $A^{l}$ 是相同形状的三维张量，形状为 $(H^{l}, W^{l}, n^{l})$ 。

另外总的代价函数为 $J$ ， $\frac{\partial J}{\partial w}$ 代表代价函数对卷积核参数的梯度，我们简写用 $d w$ 表示，同样还有误差敏感项 $\frac{\partial J}{\partial Z}$ ，简写作 $d Z$ 。

另外，关于坐标的记号：
上文中所述的 $A^{l} ， Z^{l} ， w^{l}$ 都是三维矩阵（张量），前两个维度表示平面2D坐标（第一个维度指示行，第二个维度指示列），最后一个维度代表通道。在具体表示某一个元素时，我会用脚标的形式给出，例如 $Z_{i, j, k}^{l} （ i = 0, 1, \dots, H^{l} - 1; j = 0, 1, \dots, W^{l} - 1; k = 0, 1, \dots, n^{l} - 1 ）$ 代表第k号通道下第i行第j列的元素（注意i，j，k都是从0开始计数的）。而有时候，我们会想表示某个通道的全部元素，例如 $w_{\cdot, \cdot, k^{'}}^{l}$ 代表第 $l$ 层第 $k^{'}$ 个卷积核的全部元素，这时它是一个二维的矩阵（相当于对原来的三维张量 $w^{l}$ 做了切片操作）。

2. 前向传播

我们先看卷积核的滑动过程，假设我们有一张7×7的图片（这里只画出来了一个通道），卷积核大小为3×3，步长为2，那么卷积过后可以得到3×3的图片。
步长大于1时卷积神经网的反向传播
彩色画笔标出来的框框代表了卷积核滑动后产生结果。相信聪明的你一定看的明白。

现在我们讨论一下卷积前后坐标的变化情况：
我们看卷积后的小图片（等号右边3×3的图片），它的左上角 $(0, 0)$ 对应了7×7的大图片上 $(0, 0)$ 到 $(2, 2)$ 的所有方格（蓝色线所覆盖的方格）。而小图片上红色点 $(0, 1)$ 对应了大图片 $(0, 2)$ 到 $(2, 4)$ 的方格，绿色粗点 $(0, 2)$ 则对应了 $(0, 4)$ 到 $(2, 6)$ 的方格。所以，卷积后的坐标 $(i, j)$ 对应了卷积前 $(i * s, j * s)$ 到 $(i * s + k_{1} - 1, j * s + k_{2} - 1)$ 的坐标。

综上，我们抽象出前向传播的过程，如下所示：

Z_{i, j, k}^{l} = \sum_{k^{'} = 0}^{n^{l - 1} - 1} \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} - 1} A_{i * s + m, j * s + n, k^{'}}^{l - 1} * w_{m, n, k}^{l} + b_{k}^{l}

A_{i, j, k}^{l} = g (Z_{i, j, k}^{l})

式中：

i = 0, 1, \dots, H^{l} - 1;

j = 0, 1, \dots, W^{l} - 1;

k = 0, 1, \dots n^{l} - 1;

其中，卷积前后图片长度 $H$ 和宽度 $W$ 的变化情况如下：

H^{l} = ⌊ \frac{H^{l - 1} - k_{1}}{s} ⌋ + 1;

W^{l} = ⌊ \frac{W^{l - 1} - k_{2}}{s} ⌋ + 1;

公式解释： $⌊ \cdot ⌋$ 是向下取整操作， $A^{l - 1}$ 代表了卷积前的大图片， $Z^{l}$ 就是卷积后的小图片，它们之间的坐标存在一个 $s$ 的倍数关系。其中最左边的累加号代表对卷积核 $w_{\cdot, \cdot, k}^{l}$ 对 $A^{l}$ 的所有通道做了2D的卷积操作，第二个和第三个累加就是具体某一层的二维卷积操作，稍加推导你就能明白。

3. 反向传播

3.1 $d w$ 的求法

我们知道 $w^{l}$ 是一个三维的张量， $Z^{l}$ 也是三维的张量，而且两者的第三个维度，也就是通道维是相等。形象的说，第一个卷积核 $w_{\cdot, \cdot, 0}^{l}$ 对 $A^{l - 1}$ 做卷积可以得到 $Z^{l}$ 的第一个通道，即 $Z_{\cdot, \cdot, 0}^{l}$ ，那么第二个卷积核 $w_{\cdot, \cdot, 1}^{l}$ 对 $A^{l - 1}$ 做卷积可以得到 $Z^{l}$ 的第二个通道，即 $Z_{\cdot, \cdot, 1}^{l}$ 。所以 $w_{\cdot, \cdot, k^{'}}^{l}$ 仅仅通过 $Z_{\cdot, \cdot, k^{'}}^{l}$ 对代价函数 $J$ 的误差做出贡献，那么误差反向传播回来的时候，也就是当我们求 $d w_{m^{'}, n^{'}, k^{'}}$ 时，不需要对通道维做累加，只需要对平面的两个维度做累加即可。

用公式来描述就是：

d w_{m^{'}, n^{'}, k^{'}}^{l} = \sum_{i} \sum_{j} \frac{\partial J}{\partial Z_{i, j, k^{'}}^{l}} * \frac{\partial Z_{i, j, k^{'}}^{l}}{\partial w_{m^{'}, n^{'}, k^{'}}^{l}}

那么平面上两个的坐标 $i, j$ 满足什么样的条件呢？

假设在下面这幅图中，我们要求 $d w_{1, 1, k^{'}}$ （ $k^{'} = 0, 1 \dots ， n^{l} - 1$ ），卷积核 $(1, 1)$ 上的参数（红点）在大图片（ $A^{l - 1}$ ）上滑过的位置由红点标出，而做卷积的结果则显示在了小图片的红点上。
步长大于1时卷积神经网的反向传播

所以，卷积结果的二维坐标 $i, j$ 会布满整个输出的图像，公式如下：

d w_{m^{'}, n^{'}, k^{'}}^{l} = \sum_{K = 0}^{n^{l - 1} - 1} \sum_{i = 0}^{H^{l} - 1} \sum_{j = 0}^{W^{l} - 1} A_{m^{'} + i * s, n^{'} + j * s, K}^{l - 1} * d Z_{i, j, k^{'}}^{l}

3.2 $d Z$ 的求法

上一个求 $d w$ 的式子中，我们假设 $d Z$ 是已知的。现在我们来求 $d Z$ 。由于我们这里只画出了一层卷积层，即第 $l$ 层，所以我们就根据 $d Z^{l}$ 求 $d Z^{l - 1}$ 。

注意在这里，求 $d Z^{l - 1}$ 时，我们需要对通道数做累加，因为卷积核 $w_{\cdot, \cdot, k^{'}}^{l}$ ( $k^{'} = 0, 1 \dots n^{l} - 1$ )是对 $Z^{l - 1}$ 的所有通道做卷积操作（其实是直接对 $A^{l - 1}$ 做卷积，但是 $A^{l - 1}$ 和 $Z^{l - 1}$ 的元素是一一对应的，所以在计算图上两者地位是一致的），从而得到 $Z_{\cdot, \cdot, k^{'}}^{l}$ 对误差做贡献的。

形象的画图表示就是这样：

步长大于1时卷积神经网的反向传播

所以对于特定的一层 $Z_{\cdot, \cdot, k^{'}}^{l - 1}$ ，它的梯度是需要对通道做累加的。
公式如下：

d Z_{i^{'}, j^{'}, k^{'}}^{l - 1} = \sum_{k = 0}^{n^{l} - 1} \sum_{i} \sum_{j} \frac{\partial J}{\partial Z_{i, j, k}^{l}} * \frac{\partial Z_{i, j, k}^{l}}{\partial Z_{i^{'}, j^{'}, k^{'}}^{l - 1}}

同样的，下面讨论平面上两个的坐标 $i, j$ 满足什么样的条件。看图说话：

步长大于1时卷积神经网的反向传播

假设我们要求的是紫色标出来的方格 $（ 2, 2 ）$ 处的 $d Z_{2, 2, k^{'}}^{l - 1}$ ，那么卷积核上滑过该点的位置分别是红色点 $（ 2, 2 ）$ ，绿色点 $（ 2, 0 ）$ ，蓝色点 $（ 0, 2 ）$ 和棕色点 $（ 0, 0 ）$ ，产生在 $Z^{l}$ 上的结果也由个颜色对应的点位所示。抽象成数学式子就是：

d Z_{i^{'}, j^{'}, k^{'}}^{l - 1} = \sum_{k = 0}^{n^{l} - 1} \sum_{i} \sum_{j} d Z_{i, j, k}^{l} * w_{i^{'} - j * s, j^{'} - j * s, k}^{l} * g^{'} (Z_{i^{'}, j^{'}, k^{'}}^{i - 1})

式中：

\frac{i^{'} - k_{1}}{s} < i ⩽ m i n (\frac{i^{'}}{s}, H^{l} - 1), i \in N

\frac{j^{'} - k_{2}}{s} < j ⩽ m a x (\frac{j^{'}}{s}, W^{l} - 1), j \in N

建议各位旁友拿起纸和笔推导一下，尤其上面两个关于 $i, j$ 的限制条件。

3.3 $d b$ 的求法

$d b$ 最为简单，我们直接给出结果：

d b_{k^{'}}^{l} = \sum_{i = 0}^{H^{l} - 1} \sum_{j = 0}^{W^{l} - 1} d Z_{i, j, k^{'}}^{l}

参考文献

http://www.jefkine.com/general/2016/09/05/backpropagation-in-convolutional-neural-networks/

1. 一些记号

2. 前向传播

3. 反向传播

3.1 dwdw的求法

3.2 dZdZ的求法

3.3 dbdb的求法

参考文献

3.1 $d w$ 的求法

3.2 $d Z$ 的求法

3.3 $d b$ 的求法