原博客:论文阅读理解 - (Deeplab-V3)Rethinking Atrous Convolution for Semantic Image Segmentation - CSDN博客  https://blog.csdn.net/zziahgf/article/details/75314719

DeepLabv3 论文比较了多种捕获多尺度信息的方式:

语义分割-deeplab部分笔记(内容为其他博客的知识整合)

(a)图像金字塔:将输入图片放缩成不同比例,分别应用在 DCNN 上,将预测结果融合得到最终输出。

(b)编码-解码器:利用 Encoder 阶段的多尺度特征,运用到 Decoder 阶段上恢复空间分辨率,代表工作有 FCN、SegNet、PSPNet 等工。【FCN中反卷积的做法】

(c)上下文模块(context module):在原始模型的顶端增加额外的模块,例如 DenseCRF,捕捉像素间长距离信息。【DenseCRF的具体做法?】

(d)空间金字塔池化:使用具有不同采样率和多种视野的卷积核来多尺度的捕捉对象。 

atrous rate r 表示对输入信号进行采样的步长( stride)取不同值的情况:

语义分割-deeplab部分笔记(内容为其他博客的知识整合)

最后的deeplabv3结构:

语义分割-deeplab部分笔记(内容为其他博客的知识整合)

 

图中的(a)部分为空洞卷积空间金字塔池化,一个1×11×1卷积和三个3×33×3的采样率为rates={6,12,18}的空洞卷积,滤波器数量为256,包含BN层。针对output_stride=16的情况

图中的(b)部分为图像池化操作,将特征做全局平均池化,经过卷积,再融合

相关文章:

  • 2021-05-26
  • 2021-12-07
  • 2021-12-26
  • 2021-07-29
  • 2022-01-16
  • 2021-11-05
  • 2021-06-22
  • 2021-07-02
猜你喜欢
  • 2021-04-26
  • 2021-08-09
  • 2021-07-01
  • 2021-04-06
  • 2021-07-09
  • 2021-07-07
  • 2021-07-31
相关资源
相似解决方案