论文笔记_S2D.31_2015-CVPR_对单一图像进行统一的深度和语义预测

基本情况

题目：Towards unified depth and semantic prediction from a single image
出处：Wang, P., Shen, X., Lin, Z., Cohen, S., Price, B., & Yuille, A. L. (2015). Towards unified depth and semantic prediction from a single image. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2800-2809).

摘要

深度估计和语义分割是图像理解中的两个基本问题。虽然这两项任务紧密相关且互惠互利，但它们通常是分开或顺序解决的。基于这两个任务的互补性，我们提出了一个联合深度和语义预测的统一框架。给定一幅图像，我们首先使用训练好的卷积神经网络(CNN)来联合预测由像素深度值和语义标签组成的全局布局。通过允许深度和语义信息之间的交互，联合网络提供了比仅为深度预测[6]训练的最先进的CNN更准确的深度预测。为了进一步获得精细层次的细节，在全局布局的指导下，将图像分解为局部分割，进行区域层次深度和语义预测。利用像素方向的全局预测和区域方向的局部预测，我们将推理问题建立在一个两层层次条件随机场(HCRF)中，以产生最终的深度和语义映射。如实验所示，我们的方法有效地利用了两种任务的优点，并提供了最新的结果。

1 介绍

首先讲了深度估计以及语义分割的联系，

虽然它们在场景理解中涉及到不同的方面，但图像区域的语义和几何属性之间存在较强的一致性。
当一个任务的信息可用时，它将提供有价值的先验知识来指导另一个任务。

然后讲了很多学者运用语义分割解决深度估计问题，但是存在一些问题

然而，这些方法要么假设语义标签是已知的，要么进行语义分割来生成语义标签

同时，语义分割以及深度估计自身也有一些问题，

由于两个任务是顺序执行的，预测的语义标签中的错误不可避免地传播到深度结果中
另一方面，在语义分割中，随着来自额外深度传感器的RGBD数据可用性的增加，许多方法使用深度作为另一个通道来规范分割，取得了比单独使用RGB图像更好的性能。

由于这两个任务是互惠互利的，因此已经进行了广泛的研究以共同解决视频中的问题[2、8、19、34]，其中可以轻松地通过运动获得结构3D信息。然而，从单一图像共同解决两个问题的努力是初步的[21]，主要是因为这两个任务的推论在单一图像中更为不适。提出两个任务可以互利的联合推理问题并非易事。本文是朝着这个方向迈出的又一步。与以前的方法[21]的语义和几何属性之间的一致性仅限于局部片段或对象不同，我们提出了一个统一的框架来合并来自整个图像的全局上下文和来自区域的局部预测，通过这些框架之间的一致性深度和语义信息是通过联合训练自动学习的。

论文笔记_S2D.31_2015-CVPR_对单一图像进行统一的深度和语义预测

图1说明了我们方法的框架。我们在两层分层条件随机场（HCRF）中制定联合推理问题。底层的一元电势（unary potentials）是像素深度值和语义标签，它们由从整个图像进行全局训练的卷积神经网络（CNN）预测，而上层的一元电势是区域深度和语义地图，这些地图来自另一个在本地区域接受培训的基于CNN的回归器。全局CNN的输出虽然粗略，但却提供了非常准确的全局范围和语义指导，而局部回归器则提供了深度和语义边界方面的更多详细信息。深度和语义信息之间的交互作用是通过CNN的联合训练来捕获的，并在HCRF的联合推理中得到进一步加强。

我们在NYU v2数据集[31]上评估了我们的方法的深度估计和语义分割。通过使用我们的联合全局CNN进行推断，深度预测比仅CNN的深度提高了平均8％的相对增益，并且也优于最新技术。合并局部预测后，HCRF生成的最终深度图在视觉质量方面得到了显着改善，结构和边界更加清晰。同时，在语义分割中，我们进一步表明，我们的联合方法优于R-CNN [10]，后者目前是最有效的语义分割方法，相对于平均IOU而言要高10％。

综上所述，本文的贡献有三点：

1.我们提出了一个统一的框架，用于从单个图像进行联合深度和语义预测。这两项任务的一致性是通过联合培训来学习的，并在整个框架的不同阶段实施，以提高两项任务的性能。
2.我们在两层HCRF中提出问题，以加强全局和局部预测之间的协同作用，其中全局布局用于指导局部预测并减少局部歧义，而局部结果提供详细的区域结构和边界。
3.通过广泛的评估，我们证明了共同解决我们框架中的两个问题对这两项任务都有好处，并达到了最新水平。

参考：