提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

本篇博客主要对Depth Map Prediction from a Single Image using a Multi-Scale Deep Network进行理解和复现。这篇文章发表于NIPS 2014,作者David Eigen。


一、创新点

  1. 将神经网络结构分为两个部分:预测全局特征的粗略网络和预测局部特征的细化网络。
  2. 提出尺度不变误差

二、具体分析

1.粗细结合的网络架构

深度估计论文阅读_Multi-Scale Deep Network
粗尺度网络的任务是使用场景的全局视角来预测整体深度图结构。网络的上几层是全连接层,因此可以包括整张图片的信息。同样的,底层和中间几层被设计通过最大池化操作降到一个小的空间维度,来连接图像不同部分。这样做了之后,这个网络能够整合整个场景全局的理解来预测深度。这样的针对全图的理解在单张图片中是需要的,因为这样可以有效地利用诸如消失点、物体位置、空间对齐等线索。局部线索(通常立体匹配)很难注意到这些重要的特征。

在用全局的角度预测粗糙的深度图之后,作者用了第二个网络(局部精细尺度网络)做了局部优化。这个部分的目标是编辑它接收到的之前网络的粗糙预测,使之变得规整(有更多局部细节,像目标和墙边缘)。精细化尺度网络堆只包括卷积层,在第一步边缘特征有池化层。

2.尺度不变误差

深度估计论文阅读_Multi-Scale Deep Network
场景的全局尺度在深度预测中是基本的不确定点。作者用了尺度不变误差来衡量在场景中点的相对关系,不考虑绝对全局尺度。

三、编程

https://github.com/imran3180/depth-map-prediction/blob/master/main.py(pytorch)
所用数据集: NYU Depth Dataset V2
使用尺度不变误差进行训练,用七种误差作为度量进行测试
分别输出粗尺度网络和精细网络的测试结果

相关文章: