论文阅读笔记《SegStereo: Exploiting Semantic Information for Disparity Estimation》

0.摘要

双目立体图像的深度估计具有很广泛的应用前景。传统算法在特征不明显的区域表现较差，这一问题可以利用高层次的信息来解决，例如语义分割。在这篇文章中，我们发现将语义信息结合起来能够有效的改善视差估计结果。我们的将语义特征嵌入特征图中，并将规则化的语义信息作为损失项来改善视差学习效果。我们的模型SegStereo使用了分割后的语义信息，并引入了语义Softmax损失，这有助于提高视差图的预测精度。语义信息在无监督和有监督模式下均有不错的表现。

1. 介绍

人类能够很好的在模糊区域对齐双目图像是因为借助了更多信息，例如前景和背景的全局感知，根据熟悉对象的大小进行缩放和个体的语义连续性。这些视差估计中的模糊区域总是位于一个大目标的中间位置。借助语义分类能够很容易的解决这个问题。
基本上我们使用带有correlation操作的ResNet作为编码器，几个反卷积块作为解码器来获得全尺寸的视差图。correlation操作是在成对特征图的基础上计算匹配代价。一个分割子网络用于提取语义信息并将其与视差网络连接起来作为语义特征嵌入。除此之外，我们通过语义损失规则化的方式对语义连续性进行warp操作，这进一步提高了视差估计的鲁棒性。语义分割和视差估计都是全卷积的因此可以进行端到端的训练。
我们的SegStereo模型嵌入了语义信息这对于有监督和无监督训练都有帮助。在无监督训练中，光度损失和语义soft max损失都进行计算并反向传播。嵌入的语义特征和语义soft max损失都引入了有益的语义一致性约束。对于有监督训练，我们采用监督回归损失来代替无监督的光度一致性损失。我们的主要贡献包括：

我们提出一个统一的框架将语义分割信息整合到视差估计流程中，语义一致性有效地引导视差估计
嵌入语义特征的策略和语义引导soft max损失有助于整个系统的训练
我们的方法在KITTI数据集上取得领先成绩

2. 相关工作

语义引导算法。相比于视差估计，语义分割是一种更加高层次的分类任务，图像中的每一个像素都被分配到对应的类别中。有些方法将场景分析信息应用到其他任务中。Guney和Geiger在MRF算法中借助目标物体信息来解决立体模糊问题。Bai等人利用实例分割和极限约束来解决光流估计中的不确定性。Behl等人将实例识别信息整合到基于CRF的场景流估计中。
与我们的动机相似，Cheng等人设计了一个端到端训练的网络称为SegFlow，其将视频目标分割和光流估计结合起来。这个模型包括分割分支和光流分支，其特征图级联在一起。我们更关注于视差估计，场景中的目标同时被捕获，借此可以充分利用稳定的结构信息。我们的SegStereo模型也将soft max损失反向传播到视差分支中，这使得语义信息在整个训练过程中都起作用。除此之外，我们的模型还能够利用光度损失和语义信息约束实现无监督学习。

3. 本文方法

在本章节，我们将介绍我们的SegStereo视察估计架构，适用于无监督或有监督学习。我们首先提出一个用于视察回归的基础网络。然后我们详细介绍了整合语义信息的策略，包括嵌入语义特征和语义损失规则化。他们都有效的改善了视差预测。最后，我们展示了如何在无监督或有监督条件下实现视差估计。
论文阅读笔记《SegStereo: Exploiting Semantic Information for Disparity Estimation》
图1.SegStereo架构。我们从输入的立体图像中提取中间特征 $F_{l}$ 和 $F_{r}$ 。通过correlation算子计算匹配代价卷 $F_{c}$ 。左分割特征图 $F_{s}^{l}$ 整合到视差分支中作为嵌入的语义特征。右分割特征图 $F_{s}^{r}$ warp到左图视角，以实现每个像素的语义预测。所有的步骤都是为了结合语义信息来改善视差估计效果。SegStereo网络能够实现无监督或有监督学习，通过光度损失 $L_{p}$ 或视差回归损失 $L_{r}$ 。

3.1 基础网络结构

整个SegStereo网络结构如图1所示。网络的主体是ResNet-50。不是直接从原始像素计算视差，我们采用一个ResNet-50模型的一部分用于提取特征图 $F^{l}$ 和 $F^{r}$ ，其能够更加鲁棒的编码局部环境信息。
匹配代价卷 $F_{c}$ 是对 $F^{l}$ 和 $F^{r}$ 做correlation操作，与DispNetC中相似。为了保留左特征图中的细节信息，我们将 $F^{l}$ 输入一个卷积块来获得转换后的特征图 $F_{t}^{l}$ 。同时，一个分割网络用于计算语义特征 $F_{s}^{l}$ 和 $F_{s}^{r}$ ，其与视差网络共享特征提取部分。经转换的左特征图 $F_{t}^{l}$ ，correlated的特征图 $F_{c}$ 和左语义特征图 $F_{s}^{l}$ 级联在一起作为混合特征表征 $F_{h}$ 。这里，语义信息从基础上引入了视差网络中。
在特征嵌入之后，我们将 $F_{h}$ 送入一个编码解码器来得到全尺寸的视差图 $D$ 。这个视差图将进一步用于对右语义特征图 $F_{s}^{r}$ 进行Warp操作。他们组成了本文网络的关键部分。

3.2 语义特征的嵌入

基础的视差估计网络能够很好的处理带有边界和角点等清晰的定位信息的图片。它能够通过光度损失应用于无监督系统中或者用有监督的L1损失函数引导。但在平坦区域仍存在问题，我们使用语义信息来来帮助预测和改善最终的视差图。结论是，我们首次通过嵌入语义特征来整合信息。
我们的语义特征嵌入结合了来自左视察特征图 $F_{t}^{l}$ ,correlated特征图 $F_{c}$ 和语义特征图 $F_{s}^{l}$ 的信息。它具有以下优势：1.分割分支与视差分支共享基础特征提取网络有利于高效计算和有效表征信息；2.语义特征 $F_{s}^{l}$ 提供了更多的一致性表征信息在那些平坦表面上，其引入了对象级别的信息；3.低层次特征与高层次识别特征融合在一起。实验表明，我们提出的嵌入语义特征帮助视差分支获得了更加令人信服的结果，无论是无监督学习还是有监督学习。

3.3 语义损失规则化

语义信息同样可以作为损失项来引导视差学习。如图1所示，在预测的视差图 $D$ 的基础上，我们对右语义特征图 $F_{s}^{r}$ 做Warp操作得到重构的左语义特征图 $\tilde{F_{s}^{l}}$ ，使用左分割图的真实值作为引导可以训练一个像素级别的分类器。最终，语义信息引导损失 $L_{s e g}$ 由经过分类的Warp图像和真实值计算得到。
当训练视差网络时，语义损失 $L_{s e g}$ 通过语义卷积分类器和特征Warp层反向传播到视差分支。伴随光度损失 $L_{p}$ 或者回归损失 $L_{r}$ ，语义损失 $L_{s e g}$ 作为额外的目标感知约束来引导视差训练。实验证明语义损失规则化能够有效的解决局部视差模糊问题，尤其是在无监督网络中。

3.4 目标函数

无监督模式。立体图像对中的一幅图像能够借助视差图从另一幅图像重构得到，其应该与原始输入图像十分接近。我们利用这一特性作为光度一致性来实现视差图的无监督学习。给定估计得到得视差图 $D$ ，我们对右图 $I^{r}$ 做Warp操作 $ϕ$ 得到重构得左图 $\tilde{I^{l}}$ 。然后我们利用L1范式来计算光度损失 $L_{p}$

L_{p} = \frac{1}{N} \sum_{i, j} δ_{i, j}^{p} {‖ \tilde{I_{i, j}^{l}} - I_{i, j}^{l} ‖}_{1}

式中

N

表示像素数量，

δ_{i, j}^{p}

是为了避免异常值如在图像边缘或遮挡区域，没有对应的像素存在。如果在

(i, j)

处的光度差值大于门限值

ε

则

δ_{i, j}^{p}

为0，否则为1。
光度一致性使得能够在无监督模式下学习视差。如果在

L_{p}

中没有规则项强制视差图在局部区域上平滑的话，局部视差可能是不连续的。为了解决这个问题，我们对视差图的梯度采用L1惩罚项作为平滑项损失

L_{s}

L_{s} = \frac{1}{N} \sum_{i, j} [ρ_{s} (D_{i, j} - D_{i + 1, j}) + ρ_{s} (D_{i, j} - D_{i, j + 1})]

式中

ρ (\cdot)

是一种空间平滑惩罚项应用于通用的Charbonnier函数中。
无监督系统的整体损失函数

L_{u n s u p}

包括光度损失

L_{p}

，平滑损失

L_{s}

和语义信息损失

L_{s e g}

。要说明的是在损失计算中没有用到真实的视差值因此视差估计被认为是无监督学习过程（语义损失计算需要真实标签值）为了平衡不同的损失项，我们为其增加了权重，所以整体损失函数

L_{u n s u p}

为

L_{u n s u p} = λ_{p} L_{p} + λ_{s} L_{s} + λ_{s e g} L_{s e g}

有监督模式。语义信息损失在有监督模式中仍适用。本文直接计算预测的视差图与真实视差图

\hat{D}

之间的L1范式作为视差回归损失

L_{r}

L_{r} = \frac{1}{N_{ν}} \sum_{i, j \in ν} {‖ D_{i, j} - {\hat{D}}_{i, j} ‖}_{1}

式中

ν

表示

\hat{D}

中有效的视差像素点集合，N_{\nu }是有效像素的数目。整体损失函数

L_{s u p}

为

L_{s u p} = λ_{r} L_{r} + λ_{s} L_{s} + λ_{s e g} L_{s e g}

4.实验结果

4.1模型详述

PSPNet-50用作分割网络。其中conv1_1到conv3_1层作为浅层浅层网络，用于特征提取。提取到的特征图 $F^{l}$ 和 $F^{r}$ 是原始图像尺寸的1/8.我们选择conv5_4层的输出作为语义特征。在训练SegStereo过程中浅层网络和分割网络的权重是固定的。
对于匹配代价卷的计算，我们根据极线约束对 $F^{l}$ 和 $F^{r}$ 采取一维的correlation操作。最大位移和padding尺寸都设置为24，这样得到的correlated特征图 $F_{c}$ 的通道数为25。对于左特征图转换，转换卷积层的卷积核为1*1*256。所有的 $F_{c}$ , $F_{t}^{l}$ 和 $F_{s}^{l}$ 拥有相同的尺寸。我们将其直接级联起来构成混合特征图 $F_{h}$ 。
视差编码器包括12个残差块。残差块中的普通卷积操作用空洞卷积代替来整合更加宽广的环境信息。视差解码器由3的反卷积块和一个卷积回归层组成，输出全尺寸的视差图。
右语义特征图 $F_{s}^{r}$ 尺寸是输入图像的1/8，而估计得到的视差图是全尺寸的。为了进行Warp操作，我们首先对 $F_{s}^{r}$ 做上采样使其恢复到原始尺寸。然后我们对warp得到的特征图做下采样得到最终的重构左语义特征图 $\tilde{F_{s}^{l}}$ 。

4.2 KITTI测试结果

论文阅读笔记《SegStereo: Exploiting Semantic Information for Disparity Estimation》
图2.有监督训练在KITTI2015上的测试结果

5. 结论

在本文中，我们提出了一个统一的模型SegStereo，其整合了语义特征到视察预测流程中。一个softmax损失函数包含了光度损失或视差回归损失使其可以在无监督或有监督模式下训练。我们的SegStereo模型可以获得更加可靠的结果，尤其是在模糊的区域。