卷积神经网络演进（三）

今天，我要给大家介绍一下ResNet网络结构。

ResNet在2015年的ILSVRC的冠军，它是由微软亚洲研究院何凯明提出，比VGG还要深8倍，总共有152层。

ResNet网络结构特点：残差学习

深度网络的退化问题至少说明深度网络不容易训练。但是我们考虑这样一个事实：现在你有一个浅层网络，你想通过向上堆积新层来建立深层网络，一个极端情况是这些增加的层什么也不学习，仅仅复制浅层网络的特征，即这样新层是恒等映射（Identity mapping）。在这种情况下，深层网络应该至少和浅层网络性能一样，也不应该出现退化现象。好吧，你不得不承认肯定是目前的训练方法有问题，才使得深层网络很难去找到一个好的参数。

这个有趣的假设让何凯明博士灵感爆发，他提出了残差学习来解决退化问题。对于一个堆积层结构（几层堆积而成）当输入为卷积神经网络演进（三）时其学习到的特征记为，现在我们希望其可以学习到残差，这样其实原始的学习特征是。之所以这样是因为残差学习相比原始特征直接学习更容易。当残差为0时，此时堆积层仅仅做了恒等映射，至少网络性能不会下降，实际上残差不会为0，这也会使得堆积层在输入特征基础上学习到新的特征，从而拥有更好的性能。残差学习的结构如图-1所示。这有点类似与电路中的“短路”，所以是一种短路连接（shortcut connection）。

卷积神经网络演进（三）

图-1

为什么残差学习相对更容易，从直观上看残差学习需要学习的内容少，因为残差一般会比较小，学习难度小点。不过我们可以从数学的角度来分析这个问题，首先残差单元可以表示为：

卷积神经网络演进（三）

其中卷积神经网络演进（三）和分别表示的是第个残差单元的输入和输出，注意每个残差单元一般包含多层结构。是残差函数，表示学习到的残差，而表示恒等映射，是ReLU**函数。基于上式，我们求得从浅层到深层卷积神经网络演进（三）的学习特征为：

卷积神经网络演进（三）

利用链式规则，可以求得反向过程的梯度：

卷积神经网络演进（三）

式子的第一个因子卷积神经网络演进（三）表示的损失函数到达的梯度，小括号中的1表明短路机制可以无损地传播梯度，而另外一项残差梯度则需要经过带有weights的层，梯度不是直接传递过来的。残差梯度不会那么巧全为-1，而且就算其比较小，有1的存在也不会导致梯度消失。所以残差学习会更容易。要注意上面的推导并不是严格的证明。

ResNet的网络结构：

ResNet网络是参考了VGG19网络，在其基础上进行了修改，并通过短路机制加入了残差单元，如图5所示。变化主要体现在ResNet直接使用stride=2的卷积做下采样，并且用global average pool层替换了全连接层。ResNet的一个重要设计原则是：当feature map大小降低一半时，feature map的数量增加一倍，这保持了网络层的复杂度。从图-2中可以看到，ResNet相比普通网络每两层间增加了短路机制，这就形成了残差学习，其中虚线表示feature map数量发生了改变。图5展示的34-layer的ResNet，还可以构建更深的网络如表1所示。从表中可以看到，对于18-layer和34-layer的ResNet，其进行的两层间的残差学习，当网络更深时，其进行的是三层间的残差学习，三层卷积核分别是1x1，3x3和1x1，一个值得注意的是隐含层的feature map数量是比较小的，并且是输出feature map数量的1/4。

卷积神经网络演进（三）

ResNet网络结构（图-2）

卷积神经网络演进（三）

不同深度的ResNet（图-3）

总结

ResNet通过残差学习解决了深度网络的退化问题，让我们可以训练出更深的网络，这称得上是深度网络的一个历史大突破吧。也许不久会有更好的方式来训练更深的网络，让我们一起期待吧！

参考资料

https://arxiv.org/abs/1512.03385
https://arxiv.org/abs/1603.05027
http://kaiminghe.com/

文章转载来自“机器学习算法全栈工程师”

卷积神经网络演进（三）