摘要
在标准的卷积网络中,每层网络中神经元的感受野大小都是相同的。在神经学中,视觉神经元感受野的大小是由刺激机制调节的,而卷积神经网络却很少考虑这个因素。本文提出的方法可以使神经元对不同尺寸的输入信息进行自适应的调整其感受野大小。设计了一个选择性内核的单元SK的构建块,其中多个具有不同内核大小的分支在这些分支中信息引导下,使用softmax进行融合。分支中不同注意力产生不同的有效感受野。由多个SK单元组成SKNet,SKNet中的神经元能够捕获不同尺寸的目标物体。
介绍
卷积核经常被看作在局部感受野上,将空间信息和特征维度信息进行聚合的信息聚合体。
在上个世纪猫的前视觉皮层神经元的局部感受野激发了卷积网络的产生。在视觉皮层中,相同区域的神经元的局部感受野的大小是不同的,从而可以在相同的处理阶段获得不同尺寸的空间信息。该思想叫Inception的系列完美应用,在其building block中,3 * 3,5 * 5,7 * 7的卷积通过简单的拼接来得到多尺寸的信息。
然而在设计卷积网络时,神经元感受野的其他属性并没有被考虑到。比如感受野尺寸的自适应调整。大量实验证明,视觉皮层的神经元的感受野尺寸是受刺激调制的。像Inception这种具有多个分支的网络其内部存在一种潜在机制可以在下一个卷积层根据输入的内容调整神经元感受野的大小,这是因为下一个卷积层通过线性组合将不同分支的特征进行融合,但是线性组合的方法不足于提供网络强大的调整能力。
本文提出了一种非线性的方法融合来自不同核的特征进而实现感受野不同尺寸的调整,引入了Seletive Kernel卷积。SK的灵感来源是,我们看到尺寸不同,远近不同的物体时,视觉皮层神经元感受野大小是会根据刺激来调节的,那么对于CNN网络,一般来说对于特定任务模型,卷积核大小是确定的,那么是否可以构建一种网络,使网络可以根据输入信息的多个尺度自适应的调节感受野大小呢? SK卷积包括三个操作:Split,Fuse,Select。Split操作产生多个不同核尺寸的通道与神经元的不同感受野尺寸相关。Fuse操作融合来自多通道的信息从而获得一个全局可理解性的表示用于进行权重选择。Select操作根据挑选得到的权重对不同核尺寸的特征图进行融合。
SK组成
下图包含两个分支,只包含两个不同尺寸大小的kernel,可以很任意扩展到多尺寸的卷积核中。
(1)Split:对于任意输入的特征图X,首先进行两个变换,使用多个卷积核对X进
行卷积,以形成多个分支。
其核的尺寸分别为3 * 3,5 * 5,上述两个变换都是由group/depthwise卷积,ReLU,BN等操作组成。为了进一步提高网络性能,5 * 5的卷积核替换为一个dilation为2的3 * 3的卷积核。
(2)Fuse:本文的目标是实现神经元不同尺寸感受野的自适应调整。一种基本思想是设计一个门机制用于控制流入下一个卷积层中不同分支的信息流。该Gate需要融合所有分支的信息。本文首先进行简单的像素级相加融合。通过元素求和从多个分支中融合出结果。
然后使用全局平均池化操作来编码全局信息,进而产生channel-wise统计信息,s中的第c个元素通过U的H * W维度上进行压缩计算得到。S为生成信道图即信息。C是模型图中S的特征维数或公式s的特征维数。
接下来会产生一个紧凑的特征Z用于精确及自适应的选择特征,通过一个全连接层得到,同时,进行降维处理来提高效利。
为了验证W中 d(全连接后的特征维数,即公式Z或模型图中Z的特征维数) 对模型效利的影响,引入一个衰减率r,其中c代表通道数。B为批标准化,前面为ReLU。L表示d的极小值,通过L=32是原文中实验的设置。
(3)Select:通道间的soft attention可以选择不同尺寸的信息,其被紧凑的特征信息Z引导。在channel-wise应用softmax操作。按照信道方向使用softmax。
在本例中的两个分支中,B是多余的,因为ac+bc=1,根据不同核的注意力权重得到的输出特征V如下。与Split卷积后的特征进行乘求和操作。
通过在自然图像中 放大目标对象核缩小背景 来模拟刺激,以 保持图像大小不变 。结果发现,当目标物体越来越大时,大多数神经元会越来越多地从更大的核路径中收集信息。这些结果表明,所提出的SKNet中的神经元具有自适应感受野大小。
网络结构
本文中每个SK单元由一个1 * 1的卷积,SK卷积,1 * 1卷积组成,原网络中所有具有较大尺寸的卷积核都替替换为SK卷积从而可以使网络选择合适的感受野大小。在SK单元中,存在一个参数M用于决定路径数量,即选择不同卷积核尺寸进行融合数量。G用于控制每个路径的基数,r用于控制Fuse操作中的参数数量。
总结
SENet是在(1 * 1,3 * 3,1 * 1)完整的卷积之后加入全连接层,学习通道之间的依赖关系,再将学习到的通道权重加权回原向量。
SKNet则代替了ResNeXt中的3 * 3卷积部分,用两个或多个不同卷积核大小的卷积操作加学习通道权重全连接替代,输出向量再继续1 * 1卷积操作。
SKNet相当于网络融入了soft attention机制,使网络可以获取不同感受野的信息,这或许可以成为一种泛化能力更好的网络结构。