EdgeStereo:A Context Integrated Residual Pyramid Network for Stereo Matching

局部立体卷提取 +环境金字塔+残差金字塔+边缘线索

摘要：多任务网络Edgestereo

主干网络和边缘子网络

上下文金字塔编码多尺度上下文信息，级联残差金字塔优化，为了保留细节，集成边缘线索，通过特征嵌入和边缘感知平滑损失正则化。

视差网络

1上下文金字塔——提取多尺度上下文线索

2残差金字塔——编码分层场景先验

边缘子网络

1边缘特征

2边缘视差图

3边缘感知平滑损失

EdgeStereo:A Context Integrated Residual Pyramid Network for Stereo Matching

我们的端到端CP-RPN由三个部分组成：局部立体卷提取，环境金字塔和二维的编码解码器（残差金字塔）

基础结构

1输入左右图片，浅层主干网络提取图像特征Fl Fr——提取局部语义信息

2相关层在特征空间捕捉Fl 和Fr粗略相关性，提取代价卷Fc

3用卷积块在F提取减少的图像特征Fl

4用边缘子网络计算边缘特征（视差估计左图像），利用边缘线索

51x1卷积融合减少的图像特征、代价卷和边缘特征，得到混合特征

6输入Fm，上下文金字塔收集上下文信息，在四个尺度聚合他们到分层场景先验在视察估计

上下文金字塔的每个尺度从不同子区域用不同感受野捕捉上下文线索

7输入场景先验到沙漏结构，预测全大小视差图。编码器有卷积堆叠子采样特征图，解码器有残差金字塔制定

8残差金字塔处理多尺度视差图直接在最小尺度回归，残差图预测在其他尺度上优化

9边缘特征好边缘图输入残差金字塔的每个尺度，帮助保留视差图细节

10边缘图用来指引视差和残差学习，在边缘感知平滑损失回归。

环境金字塔。想象一个巨大的无纹理的墙面，如果只是基于局部推断，许多潜在的一致性存在于每一个像素之中。因此全局环境线索就显得至关重要了。然而，单一尺度的环境表征对于立体匹配来讲是不充足的。对于一个包含许多尺寸随机的物体的场景，端到端的视差网络需要同步地推断它们之间的一致性。如果只使用一个大尺度的环境线索，小的物体很可能被忽视。相反地，如果只基于小尺度的环境线索，大尺寸物体的视差可能就不一致或不连续了。因此，提出的环境金字塔目的就是用简单的方法获取多尺度环境信息。

除此之外，如果只利用全局信息，视差图将会过度平滑而缺少精细的纹理细节。举例说明，当出现强烈的图像梯度时，就假定视差上的跳跃不会出现。因此结合多尺度局部环境信息是有益的。

得到的局部立体卷为获取环境线索提供了充足的信息，因此环境金字塔作用在其之上。我们的环境金字塔有四个平行地分支对应四个金字塔层。环境金字塔的顶部对应最大的环境尺度。感受野的尺寸粗略地表明了我们可以利用的环境信息的多少。因此金字塔中每个分支都有不同尺寸的感受野来获取对应尺度下的环境信息。在此之后，四个不同分支的输出级联在一起作为多尺度环境信息。因为局部立体卷也做为局部信息，最终我们将它和多尺度环境信息级联在一起，得到初始的立体信息，作为二维编码解码结构的输入。

EdgeStereo:A Context Integrated Residual Pyramid Network for Stereo Matching

编码解码结构（残差金字塔）。为了代替多级的优化结构，我们设计了一种不同的编码解码结构，使得视差学习和优化可以融合在一个网络中。

输入初始的立体信息，编码器包括四组卷积层。每一组由两个卷积层构成，步长分别是2和1，导致整个下采样比率为64（与原始图像相比缩小64倍）。

受残差学习的启发，解码器设计为一个残差金字塔结构。对应着编码器，解码器有七个可用的尺度（1/64，1/32，1/16，1/8，1/4，1/2和1*输入尺寸）。在最小的尺度上学习是最容易的，因为输出的尺寸很小，而且需要的细节信息很少。除此之外，解码器的七个尺度使得多步“课程”学习（curriculum learning）变得可能。更特别地，我们在1/64的尺度下学习一个简单的视差图，然后对他不断进行上采样并利用更大尺度的残差图进行优化，直到优化的视差图为全分辨率时