这篇文章借鉴了SEnet,然后做了结构的改动。
作者提到,一个完整的feature是由许多sub feature组成的,并且这些sub feature会以group的形式分布在每一层的feature里,但是这些子特征会经由相同方式处理,且都会有背景噪声影响。这样会导致错误的识别和定位结果。所以作者提出了SGE模块,它通过在在每个group里生成attention factor,这样就能得到每个sub feature的重要性,每个group也可以有针对性的学习和抑制噪声。这个attention factor仅由各个group内全局和局部特征之间的相似性来决定,所以SGE非常轻量级。经由训练之后发现,SGE对于一些高阶语意非常有效。由作者实验发现,它可以显著提高图像识别任务性能。
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
除了将channel划分为多个子特征来表示不同的语义外,我们还需要考虑卷积特征图中的另一个重要维度:空间。对于特定的语义group,在原始图像的正确空间位置生成相应的语义特征是合理的,也是有益的。但是,由于缺乏对特定区域细节的监控以及图像中可能存在的噪声,语义特征的空间分布会出现一定的混沌,这大大削弱了学习的表示性,使得层次理解的构建变得困难(见图1中的X)。
为了使每个特征都能鲁棒,并且在空间上都能产生作用,我们在所有的feature上都做了attention mask。这个attention mask可以减少噪声,并且提高特征语义区域的正确性。不同于其他的attention,作者使用了全局和局部特征的相关性来生成attention mask,所以这个模块几乎没有多余的运算量。
在引入SGE模块后,作者研究了特征图分布的变化以及各组**值的方差统计。结果表明,SGE显著改善了组内不同语义子特征的空间分布,并产生较大的统计方差,增强了语义区域的特征学习,压缩了噪声和干扰。
这里提一句外话:为什么resnext比resnet效果好,resnext也用了group,它的param减少了,Flops增加了。因为很多个group用平行堆叠相同拓扑结构的方式(aggregated transformations)类似于模型融合,所以效果更好。

模块结构

我们把channel分成多个group,每个group都有sub feature,但是我们也注意到,由于噪声和相似特征,特征很难有良好的分布。所以作者利用全局信息来进一步加强关键区域的语义特征学习。在这里作者提到,因为整个空间的特征不受噪声的支配(否则模型从这个组中什么也学不到)。因此用GAP来近似语义向量。(我觉得这里的解释有点牵强了,我还是倾向于SEnet里的说法)
1.所有feature求GAP
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
2.得到每个位置的attention
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
3. BN:为了避免不同样本间系数的偏置大小造成的影响
4. sigmoid
5.
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

它放置的位置和SEnet一样,都是每个bottleneck最后一个BN层之后,同时group设为64
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
可以看到它的对于特定语义的学习还是比resnet要好的
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
对于比较理想的feature map,网络的空间**值会有明显的对比,在语义相关区域有较大的数值**,非相关区域在几乎无响应,这样的话,logit的稀疏性较强,方差较大,图3可得,确实SGE方差较大

实验结果

SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

相关文章: