《Pyramid Scene Parsing Network》论文笔记

论文地址：https://arxiv.org/pdf/1612.01105.pdf

金字塔池化在语意分割上的应用，前面看的论文都有提到，索性就过了一遍。

What:PsPNet主要是通过金字塔池化提取多尺度信息。按论文的描述:更好的提取全局上下文信息，同时利用局部和全局信息,使得场景识别更加可靠。（从技术的角度来说，我觉得就是从不同的视野去寻找特征，类似放大镜放大，放大倍数大，视野小，物体清楚，但是看不清物体之间的关系；放大倍数小，视野大，物体模糊，但是可以看清楚物体之间的关系。）除此之外，文章还通过Ablation study （类似控制变量法，移除一个结构，研究这个结构的影响）研究金字塔多尺度池化，池化的方式，辅助损失函数，预训练模型的作用。

Why:PsPNet提出的原因，可以总结为一句话：获取全局环境信息，利用全局信息和局部信息获得更加可靠地结果。怎么做到的？提取多尺度信息。为什么提取多尺度信息可以获取全局环境信息？经验总结。

目前的方法处理获取环境（上下文）信息主要通过两个方式：

1：多尺度特征融合

2：结构化预测（CRF）

全局池化的提出给提取全局环境带来新的方向，但是这个方法面对复杂的场景任然不够理想。作者总结了 3个复杂场景的标注：

1：ismatched Relationship 关系不匹配
复杂场景理解中，上下文关系是很普遍且重要的，物体间存在的共生(co-occurrent)的视觉属性. 如，飞机可能在跑道上或者飞在空中，而不是在公路上. 如 Figure2 的第一行，FCN 基于外形将黄色框中的 boat 错误预测成 car. 但从常识来说，car 很少在河流上. 因此，缺少完整的上下文间信息导致容易出现误分类.

2：Confusion Categories 类别易混淆
物体类别标签容易混淆，比如 field 和 earth、mountain 和 hill、wall 和 house 和 building 和 skyscraper. 如 Figure2 的第二行，FCN 将方框中的内容预测分别为 skyscraper 和 building 的一部分. 而实际上，结果应该全部是两者中的一个，而不是都有. 通过利用类别间的关系能够纠正该问题.

3：Inconspicuous Classes 类别不显著
场景中包含任意大小的物体，一些小尺寸、不显著(Inconspicuous)的物体很难被发现，比如路灯和信号牌等，但这些小物体的作用却很大. 而，大尺寸的物体超出了FCN的接受野，导致预测结果不连续(discontinuous). 如 FIgure2 的第三行，pillow(枕头) 和 sheet(床单) 外形比较相似，俯瞰全局场景类别可能忽略掉 pillow. 因此，为了能较好的考虑不同尺寸大小的物体，需要注意包含不显著物体的不同子区域.

How:实现过程如下图所示：

首先作者用一组基于ResNet的网络提取一组特征，一般来说ResNet的理论视野是大于图片的，但是研究发现实际视野是小于理论视野的。提取出来的特征经过多尺度池化（1*1，2*2，3*3，6*6），提取不同尺度下的特征，获得全局环境信息。再通过双线性插值上采样，获得原来局部和全局特征信息，最后经过卷积得到最后的预测特征图。

Result:作者在3个数据集上进行了实验，验证了PsPNet的作用，这里就不截取所有结果。贴两个结果意思一下：