极简笔记 Residual Attention Network for Image Classification
论文地址:https://arxiv.org/abs/1704.06904
文章核心贡献,提出残差注意力模块结构,提升在ImageNet分类问题上的性能。
Attention机制听起来很玄乎,在这儿其实很简单,就是feature map多出一个分支去预测权重mask,然后把这个mask乘在骨架网络之后的feature map。在mask branch中使用类似FCN的下采样-上采样结构,通过sigmoid**输出。以及为了防止[0,1]范围的mask减弱trunk branch feature map的响应强度,文章使用了残差的形式,即对于输入feature map ,输出为,把mask范围调整到了[1,2]。具体residual attention module结构见上图。
几个实验:
1. 这种无约束的mask和channel-wise mask和pixel-wise mask进行对比,发现还是无约束的mask效果好;
2. FCN下采样-上采样结构mask branch和直接卷积的结构对比发现还是FCN的好;
3. 对输入图片增加噪声,发现在相同噪声层级上,Residual Attention Network比单纯的trunk network更好。以及随着噪声的增大,attention network性能的衰减也更慢。
4. 取值[1,2]的residual attention module和取值[0,1]的attention module以及无attention的网络对比发现随着网络加深,[0,1]attention 网络feature map响应均值迅速衰减,而另外两者基本保持一致,衰减比较缓慢。