一 multi scale
mutil scale有三种形式,第一种是融合中间层的不同尺度的特征图,比如常见的encoder-decoder结构;另一种是使用不同大小比例的图像batch送进网络,考虑用多尺度的融合特征做决策。第三种是PSPNet和deeplab采用的做法,分别为spp和aspp。
第一种被称作skip-net,第二种被称作share-net。
share-net
把输入图像按照给定了多个尺度缩放,送进网络中,得到多个不同尺寸的score map。接下来就是这类方法的重点,使用何种方式做特征的融合。其中Attention to scale的做法是让网络学习每一种尺度的score map的权重,使用加权求和来融合特征。至于尺寸不一样怎么融合,这个有待以后看论文才明白具体细节。
也正是因为多个尺度的图像都经过相同的网络,参数共享,所以这种方式叫做share-net
skip-net
顾名思义,模型存在捷径连接。
其实skip方式如上图那么限制的那么死,我们不仅可以入上图所示,使用不同的中间层的特征做融合,我们还能像encoder-decoder那样特征在对应层中使用,比如u-net和segnet。或者更加复杂的方式如DFN,使用逐stage不断的refine 输出结果。
ASPP
全称是Atrous Spatial Pyramid Pooling。看名字也知道有几个componet了:空洞卷积,空间金字塔,pooling操作
- 空洞卷积: 模块使用了3x3的的空洞卷积,和多个不同的空洞rate。
- 空间金字塔:使用3个不同空洞rate的3x3的卷积核,和一个1x1的卷积核,得到一个空间金字塔。事实上,四个卷积核的输出尺寸是一样的,是因为感受野的不同,形成了所谓的金字塔。
- Pooling操作:对整个网络的最后的特征图使用GAP,作为image-level information,上采样到和模块卷积层输出尺寸一样的尺寸。把它们都concat在一起。
二 空洞卷积
三 对偶结构
四 注意力机制的Guidance 残差学习
如PAN,DFN的CAB
我发现注意力机制在CNN领域常常用作特征选择,特征放大,特征抑制的作用
见PAN的注意力机制模块
DFN的CAB如下:
以上两种结果很相似,共同点都是用了high level的特征求出一个权重系数向量,用这个向量重标定lower level的特征,最后加上原始的high level特征,形成对富含语义信息的特征的残差学习。
未完待续。。。