原文链接:http://openaccess.thecvf.com/content_CVPR_2019/papers/He_Adaptive_Pyramid_Context_Network_for_Semantic_Segmentation_CVPR_2019_paper.pdf


近年来的研究表明,上下文特征可以显著地提高深层语义分割分网络的性能。当前基于语义的方法在如何构建语义结构存在着很大的差异。本文首先介绍了上下文特征在分割任务中的三个理想性质。特别地,全局导向的局部亲和力(Global-guided Local Affinity, GLA)在有效语义特征的构建中起着至关重要的作用,而这一特性在以往的研究中一直被忽视。在此基础上,本文提出了自适应金字塔上下文网络(Adaptive Pyramid Context Network, APCNet)来进行语义分割。APCNet采用多个设计良好的自适应上下文模块(Adaptive Context Modules, ACMs)自适应地构造多尺度上下文表示。具体来说,每个ACM利用全局图像作为指导来估计每个子区域的局部亲和系数,然后使用这些亲和度计算上下文向量。

由于CNN的卷积性质,局部卷积特征通常接受域有限。而且,即使接受域很大,这些特征也主要描述核心区域,很大程度上忽略了边界周围的语义。另一方面,来自不同类别的局部区域可能会共享附近的特征,例如木桌和椅子可能会表现出相似的局部纹理。精确的语义分割往往需要来自不同尺度和较大区域的上下文信息来消除局部区域造成的歧义。

所以有一个很自然的问题,什么是语义分割的最佳上下文?

  1. Multi-scale(多尺度)
  2. Adaptive(自适应)
  3. Global-guided Local Affinity(全局指导的局部亲和度)
    【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation

方法

公式表示

给定一张图片II,用CNN提取特征XXXiX_i表示位置ii处的特征向量,xix_i表示位置ii处降维后的特征向量。
一个直接想法是仅使用局部特征XiX_i来估计语义标签,但是这种思想忽略了其他区域的相关内容,限制了分割性能。

引入zi=Fcontext(X,i)z_i = F_{context}(X, i)来表示XiX_i的上下文特征向量,其中FcontextF_{context}表示从位置ii的输入特征立方体中提取ziz_i的函数。以前的上下文分割方法在如何定义FcontextF_{context}方面各不相同。

首先将XX变换成多尺度的金字塔表示,然后分别为每个尺度自适应地构造上下文向量。以尺度ss为例,划分特征图XXs×ss \times s个子区域,从而将XX变换成一组子区域表示Ys=[Y1s,Y2s,,Ys×ss]Y^s = [Y_1^s,Y_2^s,\cdots,Y_{s \times s}^s]。对每个子区域YjsY_j^s,用一个平均池化和一个卷积操作的特征向量yjsy_j^s来概括它的内容。引入亲和度系数αi,js\alpha_{i,j}^s来表示子区域YjsY_j^sXiX_i的语义标签估计的贡献程度。所以自适应上下文向量可以表示为
zis=j=1s×sαijsyjsz_i^s=\sum_{j=1}^{s \times s} \alpha_{ij}^s y_j^s
关键问题在于如何计算系数αi,js\alpha_{i,j}^s。理想情况下,在给定尺度ss和位置jj时,αi,js\alpha_{i,j}^s通过同时考虑局部特征xix_iXX的全局表示来满足GLA属性。g(X)g(X)表示全局信息,gg是全局信息提取器,αi,js=fs(xi,g(X),j)\alpha_{i,j}^s=f_s(x_i,g(X),j),则上式可表示为
zis=j=1s×sfs(xi,g(X),j)yjsz_i^s=\sum_{j=1}^{s \times s} f_s(x_i,g(X),j) y_j^s

Adaptive Context Module(ACM)

【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
ACM包含两个分支,第一个分支用于计算亲和度系数αs\alpha^s;第二个分支用于处理单一尺度的ysy^s

首先将XX1×11 \times 1卷积得到特征降维后的xx,接着用全局平均池化和一个1×11 \times 1卷积获得全局信息特征g(X)g(X)
整合局部特征{xi}\{x_i\}和全局向量g(X)g(X)来计算每个位置iiGLA,具体实现为用1×11 \times 1卷积接sigmoidsigmoid**函数。
每个亲和度向量的维数为s×ss \times s,对应于该尺度下的子区域数。最后我们获得hwh * w个亲和度向量,将他reshapereshapehw×s2hw \times s^2

第二个分支使用自适应平均池化和1×11 \times 1卷积获得ysRs×s×512y^s \in \mathbb{R}^{s \times s \times 512},然后将ysy^s reshapereshapes2×512s^2 \times 512以匹配亲和度图。

将两个分支最终得到的结果相乘,并且通过reshapereshape获得由{zis}\{ z_i^s\}组成的自适应上下文矩阵zsz^s。使用残差结构,在zsz_s中加上输入xx

Adaptive Pyramid Context Network(APCNet)

【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
先用CNN提取特征,将得到的特征图XX转变为有SS个尺度的金字塔。对于每个尺度ss来说,利用自适应平均池化和1×11 \times 1卷积将XX转变为特定的空间尺寸s×ss \times s并且得到ysRs×s×cy^s \in \mathbb{R}^{s \times s \times c}。送入ACM中得到自适应上下文向量zisz_i^s,将不同尺度的{zis}\{ z_i^s\} concatconcat得到zi=[zi1,zi2,,ziS]z_i=[z_i^1,z_i^2,\cdots,z_i^S]。最后利用局部特征{Xi}\{X_i\}和上下文向量{zi}\{z_i\}来预测每个像素的语义标签。


实验结果

【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation
【文献阅读】Adaptive Pyramid Context Network for Semantic Segmentation

相关文章:

  • 2021-06-09
  • 2022-01-23
  • 2021-07-06
  • 2021-08-10
  • 2021-11-02
  • 2021-10-31
  • 2021-03-27
  • 2021-08-19
猜你喜欢
  • 2021-08-25
  • 2021-10-28
  • 2021-09-25
  • 2022-01-13
  • 2021-07-10
  • 2021-06-17
相关资源
相似解决方案