PaperReading2-Pyramid Attention Network for Semantic Segmentation

今天我给大家介绍的是Face++2018发表的一篇关于图像分割的论文《Pyramid Attention Network
for Semantic Segmentation 》，这篇论文属于Attention系列，介绍了结合金字塔的Attention网络，论文中多次讲到了本方法和现有一些分割方法的不同，确实存在创新，可以在下面的介绍详细看。

总的来说，论文是将Attention机制与金字塔结构结合作为本文的亮点，这样可以在高层语义指导的基础上来提取相对与较低层的精确的密集特征，取代了其他方法里面的复杂的空洞卷积dilated和多个编码解码器的操作，跳出了以往常常用到的U-Net结构；再者，另一个亮点与Global average pooling类似的操作，采用了一个全局pooling进行底层特征的权值加权，对特征的map起到的选取的作用。在上面两步的结合下论文展示的结果是在PASCAL VOC 2012和Cityscapes基准测试中实现了最先进的性能，没有COCO预训练的情况下，PASCAL VOC 2012的mIoU精度为84.0％，而没有COCO数据集的培训。

论文的结构主要如下：

分述了PyramidAttentionNetwork(PAN) 包含的两个模块，以及提出的motivation，其中分析了其与现有的分割方法结构的不同及改进的创新，模块一是FPA（FeaturePyramid Attention）特征金字塔Attention机制，是为了在相对高层的特征的时候采用更加高层的语义对特征实现Attention的机制，又不会因为直接更加高层的卷积导致信息的损失，更高层的特征map为了提供一个语义的信息，相对底层的特征map提供了特征信息；模块二是GAU（Global Attention Upsample）这有点像U-Net的Upsample过程，但是这里没有用到解码器decoder，而是采用了全局池化来整理各层的保存下来的map，减少计算的同时也对其进行权重的指导，相比以往decoder的上采样是一种创新的保留底层信息的方式。接下来具体看分别的结构，以及其对应的想要解决的问题。

模块一：FPA（FeaturePyramid Attention）特征金字塔Attention

解决的问题：不同的scale大小的图片以及不同大小的物体给物体分割带来了困难
现有的方法：类似于PSPNet、DeepLab采用空间金字塔pooling实现不同的尺度以及多孔金字塔池化ASPP结构，问题一：pooling容易丢失掉局部信息，问题二：ASPP因为是一种稀疏的操作会造成棋盘伪影效应，问题三：只是简单地多个scale concat缺乏上下文的信息，没有关注上下文信息情况下效果不佳（下图作图为现有的方法），该部分处理主要是用在处理高层特征上的操作。
提出的方案：如右图所示，在提取到高层特征之后不再进行pooling的操作，而是通过三个继续的卷积实现更高层的语义，我们知道更高层的语义会更加接近ground truth的情况，会关注一些物体信息，所以用更高层的语义来作为一种Attention的指导，与高层特征做完1×1卷积不变化大小的情况下进行相乘，也就是加强了具有物体信息的部位带有的权值，得到了带有Attention的输出，同时因为金字塔卷积的结构采用不同大小的卷积核，代表着不同的感受野，所以也解决不同物体不同scale的问题。

PaperReading2-Pyramid Attention Network for Semantic Segmentation

模块二：

解决的问题：对于高层的特征常常可以实现有效的分类，但是重构原始图像的解析度或者说predict上无法精细地实现。
现有的方法：类似于SegNet、Refinenet、提拉米苏结构等等都是采用了U-Net的结构，采用了解码器decoder也就是反卷积之类再加上底层的特征，一层层地往上累加以便恢复图像细节，论文中讲到了这种虽然是可以实现底层和高层的结合以及图像重构，但是computation burden
提出的方案：如下图所示，抛弃了decoder的结构，原始形式是直接用底层特征加FPA得到的高层特征，但在skip底层特征的时候论文采用了高层特征作为指导设置了相应的权重，使得底层与高层的权重保持一致性，高层特征采用了Global Pooling得到权重，底层特征经过一个卷积层实现与高层特征相同数量的map，然后相乘后再高底层相加。这样减少了decoder复杂的计算同时也是一种新的高底层融合的形式。

PaperReading2-Pyramid Attention Network for Semantic Segmentation

论文前面用Resnet作为基本的网络，下面给出了结构提升的结果图，后面的具体的实验就不分析了

SE就是用SE attention形式，与别人做比较，C333、C357是论文提出的FPA的结构。MAX、AVE表示pooling，然后GP是指本文的GP操作。

个人觉得论文结构上还是有所创新的，分析也很到位，实际的效果还没尝试，有待考证。

read_date：20180706