语义分割中的一些技术应用（持续更新）

一 multi scale

mutil scale有三种形式，第一种是融合中间层的不同尺度的特征图，比如常见的encoder-decoder结构；另一种是使用不同大小比例的图像batch送进网络，考虑用多尺度的融合特征做决策。第三种是PSPNet和deeplab采用的做法，分别为spp和aspp。
第一种被称作skip-net，第二种被称作share-net。

share-net

把输入图像按照给定了多个尺度缩放，送进网络中，得到多个不同尺寸的score map。接下来就是这类方法的重点，使用何种方式做特征的融合。其中Attention to scale的做法是让网络学习每一种尺度的score map的权重，使用加权求和来融合特征。至于尺寸不一样怎么融合，这个有待以后看论文才明白具体细节。
也正是因为多个尺度的图像都经过相同的网络，参数共享，所以这种方式叫做share-net

skip-net

顾名思义，模型存在捷径连接。
语义分割中的一些技术应用（持续更新）
其实skip方式如上图那么限制的那么死，我们不仅可以入上图所示，使用不同的中间层的特征做融合，我们还能像encoder-decoder那样特征在对应层中使用，比如u-net和segnet。或者更加复杂的方式如DFN，使用逐stage不断的refine 输出结果。
语义分割中的一些技术应用（持续更新）

ASPP

全称是Atrous Spatial Pyramid Pooling。看名字也知道有几个componet了：空洞卷积，空间金字塔，pooling操作

空洞卷积：模块使用了3x3的的空洞卷积，和多个不同的空洞rate。
空间金字塔：使用3个不同空洞rate的3x3的卷积核，和一个1x1的卷积核，得到一个空间金字塔。事实上，四个卷积核的输出尺寸是一样的，是因为感受野的不同，形成了所谓的金字塔。
Pooling操作：对整个网络的最后的特征图使用GAP，作为image-level information，上采样到和模块卷积层输出尺寸一样的尺寸。把它们都concat在一起。

二空洞卷积

三对偶结构

四注意力机制的Guidance 残差学习

如PAN，DFN的CAB

我发现注意力机制在CNN领域常常用作特征选择，特征放大，特征抑制的作用
见PAN的注意力机制模块
语义分割中的一些技术应用（持续更新）
DFN的CAB如下：

以上两种结果很相似，共同点都是用了high level的特征求出一个权重系数向量，用这个向量重标定lower level的特征，最后加上原始的high level特征，形成对富含语义信息的特征的残差学习。

未完待续。。。