金字塔池化在语意分割上的应用,前面看的论文都有提到,索性就过了一遍。

What:PsPNet主要是通过金字塔池化提取多尺度信息。按论文的描述:更好的提取全局上下文信息,同时利用局部和全局信息,使得场景识别更加可靠。(从技术的角度来说,我觉得就是从不同的视野去寻找特征,类似放大镜放大,放大倍数大,视野小,物体清楚,但是看不清物体之间的关系;放大倍数小,视野大,物体模糊,但是可以看清楚物体之间的关系。)除此之外,文章还通过Ablation study (类似控制变量法,移除一个结构,研究这个结构的影响)研究金字塔多尺度池化,池化的方式,辅助损失函数,预训练模型的作用。
Why:PsPNet提出的原因,可以总结为一句话:获取全局环境信息,利用全局信息和局部信息获得更加可靠地结果。怎么做到的?提取多尺度信息。为什么提取多尺度信息可以获取全局环境信息?经验总结。

目前的方法处理获取环境(上下文)信息主要通过两个方式:
1:多尺度特征融合

2:结构化预测(CRF)
全局池化的提出给提取全局环境带来新的方向,但是这个方法面对复杂的场景任然不够理想。作者总结了 3个复杂场景的标注:

1:ismatched Relationship 关系不匹配
复杂场景理解中,上下文关系是很普遍且重要的,物体间存在的共生(co-occurrent)的视觉属性. 如,飞机可能在跑道上或者飞在空中,而不是在公路上. 如 Figure2 的第一行,FCN 基于外形将黄色框中的 boat 错误预测成 car. 但从常识来说,car 很少在河流上. 因此,缺少完整的上下文间信息导致容易出现误分类.

2:Confusion Categories 类别易混淆
物体类别标签容易混淆,比如 field 和 earth、mountain 和 hill、wall 和 house 和 building 和 skyscraper. 如 Figure2 的第二行,FCN 将方框中的内容预测分别为 skyscraper 和 building 的一部分. 而实际上,结果应该全部是两者中的一个,而不是都有. 通过利用类别间的关系能够纠正该问题.
3:Inconspicuous Classes 类别不显著
场景中包含任意大小的物体,一些小尺寸、不显著(Inconspicuous)的物体很难被发现,比如路灯和信号牌等,但这些小物体的作用却很大. 而,大尺寸的物体超出了FCN的接受野,导致预测结果不连续(discontinuous). 如 FIgure2 的第三行,pillow(枕头) 和 sheet(床单) 外形比较相似,俯瞰全局场景类别可能忽略掉 pillow. 因此,为了能较好的考虑不同尺寸大小的物体,需要注意包含不显著物体的不同子区域.
《Pyramid Scene Parsing Network》论文笔记
How:实现过程如下图所示:

首先作者用一组基于ResNet的网络提取一组特征,一般来说ResNet的理论视野是大于图片的,但是研究发现实际视野是小于理论视野的。提取出来的特征经过多尺度池化(1*1,2*2,3*3,6*6),提取不同尺度下的特征,获得全局环境信息。再通过双线性插值上采样,获得原来局部和全局特征信息,最后经过卷积得到最后的预测特征图。
《Pyramid Scene Parsing Network》论文笔记
Result:作者在3个数据集上进行了实验,验证了PsPNet的作用,这里就不截取所有结果。贴两个结果意思一下:

《Pyramid Scene Parsing Network》论文笔记

《Pyramid Scene Parsing Network》论文笔记

相关文章: