residual attention network 论文阅读笔记

注意力机制主要运用在自然语言理解当中，但是随着深度学习的发展，注意力机制也引进了计算机视觉当中，本文是将计算机视觉中的注意力机制进行了进一步的总结与提炼，将之前的注意力机制提炼为了注意力模块，并将多个这样的注意力模块有机组合在一起，从而网络深度越深，所获得的效果越好，这一个网络架构就叫做残差注意力网络，并在Imagenet上取得了不错的提升。

本文主要创新点：

使用了stacked network structure结构。什么事stacked network structure结构？文章当中给出了结构图，简单易懂

这个架构的数学表达式是

左边输出的就是Mi,c,右边的Trunk Branch就是常规的卷积操作层，通过这一种类似于Resnet的skip connection的操作将权重（换言之就是注意力放在了原图像的感兴趣物体上）。
什么是skip connection呢？

这个skip connection本质就是一种跳跃式传递。在ResNet中引入了一种叫residual network残差网络结构，其和普通的CNN的区别在于从输入源直接向输出源多连接了一条传递线，这是一种identity mapping，也就是所谓的恒等映射，用来进行残差计算。这叫是shortcut connection,也叫skip connection。其效果是为了防止网络层数增加而导致的梯度弥散问题与退化问题。
那么为什么要把这里是加上这个Mic，而不是减去这个值呢？这就是本文的第二个创新点，
bottom-up top-down feedforward attention: bottom-up top-down就是FCN中的特征图先变小，然后通过上采样将图像变大的方法，作者利用这种方法将特征权重添加到特征图上。

3.soft mask branch结构，如上图所示，,那么这一结构有什么好处呢?对输入图片，需要通过连续几次max pooling将感受野进行扩张，这样在达到最小分辨率后，再利用线性插值的方法将图像反向放大为原有大小，这样的模块一共有三个，分别成为stage1,stage2和stage3，最后通过连续两个1*1的卷积层以及一个sigmoid**函数层，将最后的结果限制在[0,1]之间，同时，由于处理的图像是多通道的，所以也要对多个通道的输出进行修正与优化，所以提出来了三种优化方法，分别为f1,f2和f3, 其中，f1就是对每个channel的每个位置进行sigmoid操作，f2，对每个位置，求所有channel的L2范数，f3，对每个channel先进行标准化，然后对每个位置进行sigmoid操作。其具体表达式见下图
最后一个创新点是如何将这些卷积层有机的组合在一起，从而可以实现对一幅图像中的多个物体分别聚焦，便于后续分类，在这个思路下，不同的注意力模块就可以对同一幅图像的不同物体分别进行注意力堆叠。文中以几幅不同的天空中的气球图为例来表述注意力模块带来的好处
.
这里通过注意力模块的堆叠实现了对气球和天空背景不同物景的注意力分配最后得到的注意力图上很好的吧目标物体提取出来。
当然这种堆叠不是单纯的堆叠，而且在反向传播上也进行了梯度的反向过滤。这样防止了学习的梯度小时问题
最后，在imagenet数据集上进行了测试，结果如下表