摘要

视觉任务中多尺寸的特征表示十分重要,作为backbone的CNN对尺寸表征能力越强,性能提升越大。目前大多数特征提取的方法是分层方式来表示多尺度特征。分层方式即要么对每一层使用多个尺度的卷积核进行特征提取,要么就是对每一层提取特征进行融合。
本文提出的Res2Net在原有的残差单元结构中又增加了小的残差块,通过在单一残差块中对残差连接进行分级,进而可以达到细粒度层级的多尺度表征,同时增加了每一层的感受野的大小。Res2Net可以嵌入到不同的特征提取网络中,如ResNet,ResNeXt等等。

介绍

在自然场景中,视觉模式经常表现多尺寸特征。(1)一个图像可以会出现大小不同的物体,如沙发和杯子。(2)一个对象的基本上下文信息可能占据比对象本身大的区域。比如,依赖于桌子的上下文信息,进而判断桌子上的黑色斑点是杯子还是笔筒。(3)感知来自不同尺度的信息对于理解诸如细粒度分类和语义段等任务的部分和对象是至关重要的。所以为视觉任务设计良好的多尺度刺激特征是至关重要的。
Res2Net论文记录
在视觉任务中获取多尺度表征需要特征提取器使用大范围的感受野来描述不同尺度下的对象/上下文等。CNN通过一堆卷积操作符自然地学习由粗到精的多尺度特征,CNN有多尺度特征提取的能力。
AlexNet按顺序堆叠卷积并得到比传统方法更显著的效果。然而,由于网络深度和卷积核大小的限制,AlexNet只有很小的感受野。
VGGNet增加了网络的深度并使用了更小的卷积核。更深的网络结构可以扩大感受野,从更大的尺度提取特征,通过堆叠更多大的卷积核的层,是一种更容易扩大感受野的方法。VGGNet比AlexNet有更少的参数更强的表达能力。但是都是线性堆叠卷积,只能表达不灵活的感受野。
GoogLeNet采用了并行的不同尺度的卷积来增强多尺度的表达能力。但是有受限于计算资源。因此多尺度表征的策略仍然没有更大范围的感受野。
ResNet引入shortcut,因此在有更深的网络结构的同时缓解了梯度消失的问题。特征提取的过程,短连接让不同的卷积相结合。类似的,DenseNet里的密集连接也使得网络能够处理一个很大范围的尺度。

Res2Net

网络结构

Res2Net论文记录
上图左边是最基本的卷积模块。右图是针对中间的3 * 3卷积进行的改进。
首先是对经过1 * 1输出后的特征图按通道数均分为s(图中有四个s)块,每一部分是Xi,每一个Xi都会具有相应的3 * 3卷积,由Ki()表示,用yi表示Ki()的输出。
特征子集Xi与Ki-1()的输出相加,然后送入Ki()。为了在增加s的同时减少参数,我们省略了X1的3 * 3卷积,Split的第一个X是直接映射到y1的,因为省略3 * 3卷积可以减少参数,并且特征重用。
Res2Net论文记录
y1 = x1;
y2 = x2 * (3 * 3) = K2;
y3 = (x3 + x2 * (3 * 3)) * (3 * 3)=K3;
y4 = (x4 + (x3 + x2 * (3 * 3)) * (3 * 3)) * (3 * 3)=K4;
如此我们将得到不同数量以及不同感受野大小的输出。比如y2得到3 * 3的感受野,那么y3得到5 * 5的感受野,y4会得到更大尺寸如7 * 7的感受野。
最后将这四个输出进行融合并经过一个1 * 1的卷积。这种先拆分后融合的策略能够使卷积可以更高效的处理特征。
值得注意的是,每个3 * 3卷积核可以接受来自该层前面的所有分离的特征,每次分类特征经过3 * 3的卷积处理后,其输出的感受野要比输入更大,由于不同的组合方式,Res2Net的输出包含不同大小及数量的感受野。在Res2Net中,Split以多尺寸的方式进行处理,有利于提取全局及局部的特征。为了融合不同尺寸的信息,将输出送入到1 * 1的卷积中。分离拼接操作可以增强卷积的处理能力。为了减少参数量,忽略了第一个X1操作,可以看出特征重复利用。
本文将s设置为比例尺寸的控制参数,也就是可以将输入通道数平均分成多个特征通道。s越大表明多尺度能力越强,通过引入拼接操作,并未增加计算及内存消耗。

Res2Net与其他网络融合

Res2Net论文记录
上图将ResNeXt和SENet运用到Res2Net里面。
首先是ResNeXt中的维度基数,主要是利用分组卷积,将输出的通道维数平均分成c组,分别进行卷积,最后通过concat进行连接,使输入维度和输出维度相同。
eg.【如果输入和输出维度都是256,用3 * 3的卷积核进行卷积,参数量为3 * 3 * 256 * 256.但若使用分组卷积,比如将通道数分为8组,每组通道数为32,则参数量九五3 * 3 * 32 * 32 * 8.远远小于上个参数。
最初是在AlexNet中用到的,为了使多个GPU进行训练,Alex认为group卷积的方式能够增加滤波器之间的对角相关性,而且能够减少训练参数,不容易过拟合,这类似于正则的效果。
本文是对每个块下的3 * 3卷积进行分组,每组的通道数变成channel/c。】
然后,在最后的1 * 1卷积后面加上SENet,其主要通过建模通道数之间的相互依赖性自适应地校准每个通道的特征相应,即为每个通道分配权重,该权值代表每个通道的影响力。

实验

Res2Net论文记录
由于Res2Net具有更强的多尺度能力,Res2Net有**地图,它倾向于覆盖大对象上的整个对象。响应图更集中在小目标,中等大小的物体上,两者效果差不多,大的物体Res2Net的响应图就包含整个物体。

优秀博客链接:https://blog.csdn.net/ruoruojiaojiao/article/details/89074763

相关文章: