语义分割-deeplab部分笔记(内容为其他博客的知识整合)

原博客：论文阅读理解 - (Deeplab-V3)Rethinking Atrous Convolution for Semantic Image Segmentation - CSDN博客 https://blog.csdn.net/zziahgf/article/details/75314719

DeepLabv3 论文比较了多种捕获多尺度信息的方式：

(a)图像金字塔：将输入图片放缩成不同比例，分别应用在 DCNN 上，将预测结果融合得到最终输出。

(b)编码-解码器：利用 Encoder 阶段的多尺度特征，运用到 Decoder 阶段上恢复空间分辨率，代表工作有 FCN、SegNet、PSPNet 等工。【FCN中反卷积的做法】

(c)上下文模块(context module)：在原始模型的顶端增加额外的模块，例如 DenseCRF，捕捉像素间长距离信息。【DenseCRF的具体做法？】

(d)空间金字塔池化：使用具有不同采样率和多种视野的卷积核来多尺度的捕捉对象。

atrous rate r 表示对输入信号进行采样的步长( stride)取不同值的情况：

语义分割-deeplab部分笔记(内容为其他博客的知识整合)

最后的deeplabv3结构：

语义分割-deeplab部分笔记(内容为其他博客的知识整合)

图中的(a)部分为空洞卷积空间金字塔池化，一个1×11×1卷积和三个3×33×3的采样率为rates={6,12,18}的空洞卷积，滤波器数量为256，包含BN层。针对output_stride=16的情况

图中的(b)部分为图像池化操作，将特征做全局平均池化，经过卷积，再融合