极简笔记 Residual Attention Network for Image Classification

文章核心贡献，提出残差注意力模块结构，提升在ImageNet分类问题上的性能。
极简笔记 Residual Attention Network for Image Classification

Attention机制听起来很玄乎，在这儿其实很简单，就是feature map多出一个分支去预测权重mask，然后把这个mask乘在骨架网络之后的feature map。在mask branch中使用类似FCN的下采样-上采样结构，通过sigmoid**输出。以及为了防止[0,1]范围的mask减弱trunk branch feature map的响应强度，文章使用了残差的形式，即对于输入feature map $F (x)$ ，输出为 $H (x) = (1 + M (x)) * F (x)$ ，把mask范围调整到了[1,2]。具体residual attention module结构见上图。

几个实验：
1. 这种无约束的mask和channel-wise mask和pixel-wise mask进行对比，发现还是无约束的mask效果好；
2. FCN下采样-上采样结构mask branch和直接卷积的结构对比发现还是FCN的好；
3. 对输入图片增加噪声，发现在相同噪声层级上，Residual Attention Network比单纯的trunk network更好。以及随着噪声的增大，attention network性能的衰减也更慢。
4. 取值[1,2]的residual attention module和取值[0,1]的attention module以及无attention的网络对比发现随着网络加深，[0,1]attention 网络feature map响应均值迅速衰减，而另外两者基本保持一致，衰减比较缓慢。
极简笔记 Residual Attention Network for Image Classification