极简笔记 Pyramid Attention Network for Semantic Segmentation

本文核心提出PAN，提出Feature Pyramid Attention module（FPA）和Global Attention Upsample module（GAU），引入注意力机制用于语义分割。
极简笔记 Pyramid Attention Network for Semantic Segmentation

文章认为现有分割ASPP模型会导致grid artifact；以及pyramid pooling module会很大程度丢失像素位置信息。因此考虑不使用atrous形式，同时通过用金字塔结构学习注意力mask而不是直接对feature map进行学习，从而保持像素级别的位置信息。FPA结构如图，一个分支用pyramid结构预测attention mask，另外再加一个global pooling branch。值得吐槽的是配图画的真丑，我真的没有从配图中看出来下采样使用pooling还是用stride=2的形式实现的，以及每个尺度上的卷积是做两次nxn还是一次nxn。还有global pooling branch后面原文写着和之前的feature进行concatenate，在图里又变成了+，这种说话说一半，前后不一致的现象，极度影响阅读体验！要不是看在sota的份上我就不看了！
极简笔记 Pyramid Attention Network for Semantic Segmentation

GAU是用在decode时候的单元，同样引入注意力机制，基本思路也就是high resolution feature map预测一个channel mask然后乘在low resolution shortcut上，具体实现如图。
极简笔记 Pyramid Attention Network for Semantic Segmentation

文章对FPA结构进行了拆解分析，结果如图，同样的，我还是没看懂Max pooling 和Ave pooling到底是用在了什么地方，只能猜测是Pyramid结构里下采样的方式。
极简笔记 Pyramid Attention Network for Semantic Segmentation

对GAU也有分析，发现shortcut用3x3比用1x1效果好
极简笔记 Pyramid Attention Network for Semantic Segmentation

最后是各种sota的比较
极简笔记 Pyramid Attention Network for Semantic Segmentation