Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European conference on computer vision. Springer, Cham, 2014: 818-833.

2013年ImageNet 图像分类。

大量的CNN模型在ImageNet图像分类任务中取得了优秀的效果,但是人们对于为何CNN有如此神奇的效果以及如何进一步提升它的效果却并不明了。此文正是聚焦于这两点。

主要内容包括:

(1)特征可视化:提出了基于反卷积的可视化技术,深入探究CNN的中间层以及分类操作。发现,低层特征为边缘、色彩等简单特征,高层特征为部件等复杂特征。

(2)模型选择与提升:通过利用可视化观察Alexnet的中间层结果,发现其中不足(缺乏中频信息),并进行改进(减小卷积核与步长),得到了在ImageNet上效果更好的模型—Zenet。

(3)训练过程中特征变化跟踪:基于可视化,跟踪学习过程中各层特征变化。结果发现,低层特征较容易收敛,而高层特征需要充分迭代后才能收敛。

(4)CNN模型对图像变换的鲁棒性:发现,模型对轻微的平移、缩放具有鲁棒性,而对于非中心对称图像的旋转变换敏感。

(5)特征泛化性:在A数据集上训练得到的模型,固定除Softmax层外的其他层参数不变,在B数据集上重新训Softmax层参数,发现模型依然有一定的分类效果,因此CNN特征具有一定的泛化性。但A与B差异性较大时,分类效果并不好。

(6)另外,模型的深度与宽度对效果的影响也被作者探究。发现,增加深度与宽度能提升性能。

可视化过程:

1、可视化并不是针对模型本身,而是在已经训练好模型的基础上,输入一张图像,经过前向传播,得到与图像相对应的各层特征图,然后将这些特征图可视化出来。也就是说,可视化结果与输入图像一一对应。

2、可视化是由网络的顶端反向向底端,逐层进行。比如说,为了可视化Alexnet的layer5中的feature map1中的一个**值a。则将layer5中除a之外的其他**值置0,然后依次以Unpooling(pooling的反操作)、Rectication、Filtering作为一个周期,重复,直至恢复到input层。

3、Unpooling:由于pooling是不可逆的,因此在pooling时,用switch表格记录下Max值的最大位置。unpooling时,在对应位置上放**值,而其他位置放0,大致地进行恢复。具体过程如图1。

4、Filtering:反转置卷积,操作时将滤波器左右上下对调即可。具体数学理论不详。整个可视化过程图如图1。

【Imagenet LSVRC系列模型】Zenet-2013 Visualizing and Understanding Convolutional Networks

图1 可视化过程

部分实验结果展示:

【Imagenet LSVRC系列模型】Zenet-2013 Visualizing and Understanding Convolutional Networks

图2 可视化结果

反卷积网络参考论文:Zeiler, M., Taylor, G., Fergus, R.: Adaptive deconvolutional networks for mid and
high level feature learning. In: ICCV (2011)

另一篇可视化参考论文:Simonyan, K., Vedaldi, A., Zisserman, A.: Deep inside convolutional networks: Visualising

image classification models and saliency maps. arXiv 1312.6034v1 (2013)





相关文章:

  • 2021-07-23
  • 2021-05-04
  • 2021-03-31
  • 2021-11-03
  • 2021-08-30
  • 2021-10-11
  • 2021-10-08
猜你喜欢
  • 2021-07-14
  • 2021-05-08
相关资源
相似解决方案