一 multi scale

mutil scale有三种形式,第一种是融合中间层的不同尺度的特征图,比如常见的encoder-decoder结构;另一种是使用不同大小比例的图像batch送进网络,考虑用多尺度的融合特征做决策。第三种是PSPNet和deeplab采用的做法,分别为spp和aspp。
第一种被称作skip-net,第二种被称作share-net。

share-net

把输入图像按照给定了多个尺度缩放,送进网络中,得到多个不同尺寸的score map。接下来就是这类方法的重点,使用何种方式做特征的融合。其中Attention to scale的做法是让网络学习每一种尺度的score map的权重,使用加权求和来融合特征。至于尺寸不一样怎么融合,这个有待以后看论文才明白具体细节。
也正是因为多个尺度的图像都经过相同的网络,参数共享,所以这种方式叫做share-net

skip-net

顾名思义,模型存在捷径连接。
语义分割中的一些技术应用(持续更新)
其实skip方式如上图那么限制的那么死,我们不仅可以入上图所示,使用不同的中间层的特征做融合,我们还能像encoder-decoder那样特征在对应层中使用,比如u-net和segnet或者更加复杂的方式如DFN,使用逐stage不断的refine 输出结果
语义分割中的一些技术应用(持续更新)

ASPP

全称是Atrous Spatial Pyramid Pooling。看名字也知道有几个componet了:空洞卷积,空间金字塔,pooling操作

  • 空洞卷积: 模块使用了3x3的的空洞卷积,和多个不同的空洞rate。
  • 空间金字塔:使用3个不同空洞rate的3x3的卷积核,和一个1x1的卷积核,得到一个空间金字塔。事实上,四个卷积核的输出尺寸是一样的,是因为感受野的不同,形成了所谓的金字塔。
  • Pooling操作:对整个网络的最后的特征图使用GAP,作为image-level information,上采样到和模块卷积层输出尺寸一样的尺寸。把它们都concat在一起。
    语义分割中的一些技术应用(持续更新)

二 空洞卷积

三 对偶结构

四 注意力机制的Guidance 残差学习

如PAN,DFN的CAB

我发现注意力机制在CNN领域常常用作特征选择,特征放大,特征抑制的作用
见PAN的注意力机制模块
语义分割中的一些技术应用(持续更新)
DFN的CAB如下:
语义分割中的一些技术应用(持续更新)
以上两种结果很相似,共同点都是用了high level的特征求出一个权重系数向量,用这个向量重标定lower level的特征,最后加上原始的high level特征,形成对富含语义信息的特征的残差学习。

未完待续。。。

相关文章:

  • 2021-06-24
  • 2021-11-23
  • 2021-12-13
  • 2022-12-23
  • 2021-12-28
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-01-06
  • 2022-02-12
  • 2022-12-23
  • 2022-12-23
  • 2021-12-25
  • 2021-06-02
  • 2021-06-19
相关资源
相似解决方案