ParseNet: Looking wider to see better论文解读

Introduction

这篇文章提出了ParseNet，一个端到端的用于语义分割的卷及神经网络，这篇文章最大的贡献在于使用了全局语义信息（Global Context）来做分割，ParseNet可以直接对网络中任意一层进行全局池化得到一个代表全图特征的特征图，并利用这个特征图进行分割。
可是为什么加入了全局信息就会改善分割的结果呢？
对于CNN来说，由于池化层的存在，卷积核的感受野（Receptive Field）可以迅速地扩大，对于最顶层的神经元，其感受野通常能够覆盖整个图片。例如对于VGG的fc7层，其理论上的感受野有404*404大小，而输入的图像也不过224*224，似乎底层的神经元是完全有能力去感知到整个图像的全部信息。但事实却并不是这样的。文章通过实验证明了神经网络实际的感受野要远小于其理论上的感受野，并不足以捕捉到全局语义信息。
ParseNet: Looking wider to see better论文解读
如上图所示，（a）是原图，（b）是某个神经元输出的Activation map，文章对原图上滑动一个窗口，对这个窗口内部的图像加入随机噪声并观察加噪声后该神经元的输出是否有较大的变化，当产生较大变化时，代表这个神经元可以感受到这部分图像，并由此得到实际的感受野，如图（d）所示。经过实验发现，实际感受野只有原图的约1*/4大小。在另一篇名为

Object detectors emerge in deep scene cnns

的论文中也得到了类似的结论。
既然有了这样的现象，那很自然得就会想到加入全局信息去提升神经网络分割的能力。人们常说，窥一斑而知全豹，但这句话并不总是成立的，如果说你盯着一根杆子使劲看而不去关注它的环境位置顶部底座等信息，同样难以判断出来这根杆子是电线杆还是标志牌或者红绿灯。就如同以下FCN的输出一样，充满了错误的分类结果
ParseNet: Looking wider to see better论文解读

Early Fusion and Late Fusion

在通过全局平均池化（Global Average Pooling）后，就要考虑如何将得到的全局信息加入CNN了。
ParseNet: Looking wider to see better论文解读
一种方式叫做early fusion，对得到的全局信息进行反池化（Unpool），得到和原特征图同样维度的全局特征，再把两者拼接起来，一起送入分类器中。由于文章使用的全局池化是平均池化，在反池化的时候，就是把得到的结果复制H*W遍铺成矩形，得到一个H*W*C的特征图。
另一种方式是late fusion，把得到的两个特征分别送入分类器，将最后的分类结果以某种方式融合起来，比如加权求和。
无论是early fusion还是late fusion，如果进行合适的归一化，结果并不会有太大的不同。
但是在融合的时候一定要注意的一个问题就是不同层特征的尺度不同，这也就是为什么一定要进行归一化的原因。
![60981195.png](ParseNet- Looking Wider to See Better_files/60981195.png)
这张图的四种颜色代表了从四个不同深度的卷积层中提取出的特征向量，可以看到底层和顶层特征向量的尺度会有很大的差别，如果不进行归一化，高层的特征几乎都会被底层的大尺度特征向量所覆盖，无法对分类造成影响。

Normalization

文章使用了l2来对特征图进行归一化，但是如果仅仅使用l2归一化，对训练又会造成很大的影响，比如说我们的归一化目标为使特征向量的l2范数为1，那么最后得到的特征向量的值都会非常的小，这对梯度的回传非常不利，使训练变得非常缓慢，因此文章对归一化加入一个scale参数，通过scale控制归一化后特征向量的大小。
这个尺度怎么设置好呢？
当然是让神经网络自己学习咯，毕竟现在大家都很懒。其实就像batch norm和prelu一样，万事可导万事可学。既然这个参数是可以学习的，那就多多益善了，给每一个通道的特征图都加一个scale参数，让每个通道都自己控制学习，还不是美滋滋？

Conclusion

最后文章自己炼丹炼了几组baseline，有DeepLab有FCN，都是超过了论文提到的mIoU，然后拿去和自己的模型比较，发现自己的网络性能都达到了SOTA的境界。
效果对比图如下：
ParseNet: Looking wider to see better论文解读