【Imagenet LSVRC系列模型】Zenet-2013 Visualizing and Understanding Convolutional Networks

Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European conference on computer vision. Springer, Cham, 2014: 818-833.

2013年ImageNet 图像分类。

大量的CNN模型在ImageNet图像分类任务中取得了优秀的效果，但是人们对于为何CNN有如此神奇的效果以及如何进一步提升它的效果却并不明了。此文正是聚焦于这两点。

主要内容包括：

（1）特征可视化：提出了基于反卷积的可视化技术，深入探究CNN的中间层以及分类操作。发现，低层特征为边缘、色彩等简单特征，高层特征为部件等复杂特征。

（2）模型选择与提升：通过利用可视化观察Alexnet的中间层结果，发现其中不足（缺乏中频信息），并进行改进（减小卷积核与步长），得到了在ImageNet上效果更好的模型—Zenet。

（3）训练过程中特征变化跟踪：基于可视化，跟踪学习过程中各层特征变化。结果发现，低层特征较容易收敛，而高层特征需要充分迭代后才能收敛。

（4）CNN模型对图像变换的鲁棒性：发现，模型对轻微的平移、缩放具有鲁棒性，而对于非中心对称图像的旋转变换敏感。

（5）特征泛化性：在A数据集上训练得到的模型，固定除Softmax层外的其他层参数不变，在B数据集上重新训Softmax层参数，发现模型依然有一定的分类效果，因此CNN特征具有一定的泛化性。但A与B差异性较大时，分类效果并不好。

（6）另外，模型的深度与宽度对效果的影响也被作者探究。发现，增加深度与宽度能提升性能。

可视化过程：

1、可视化并不是针对模型本身，而是在已经训练好模型的基础上，输入一张图像，经过前向传播，得到与图像相对应的各层特征图，然后将这些特征图可视化出来。也就是说，可视化结果与输入图像一一对应。

2、可视化是由网络的顶端反向向底端，逐层进行。比如说，为了可视化Alexnet的layer5中的feature map1中的一个**值a。则将layer5中除a之外的其他**值置0，然后依次以Unpooling（pooling的反操作）、Rectication、Filtering作为一个周期，重复，直至恢复到input层。

3、Unpooling：由于pooling是不可逆的，因此在pooling时，用switch表格记录下Max值的最大位置。unpooling时，在对应位置上放**值，而其他位置放0，大致地进行恢复。具体过程如图1。

4、Filtering：反转置卷积，操作时将滤波器左右上下对调即可。具体数学理论不详。整个可视化过程图如图1。

【Imagenet LSVRC系列模型】Zenet-2013 Visualizing and Understanding Convolutional Networks

图1 可视化过程

部分实验结果展示：

【Imagenet LSVRC系列模型】Zenet-2013 Visualizing and Understanding Convolutional Networks

图2 可视化结果

反卷积网络参考论文：Zeiler, M., Taylor, G., Fergus, R.: Adaptive deconvolutional networks for mid and
high level feature learning. In: ICCV (2011)

另一篇可视化参考论文：Simonyan, K., Vedaldi, A., Zisserman, A.: Deep inside convolutional networks: Visualising

image classification models and saliency maps. arXiv 1312.6034v1 (2013)