每天一篇论文 324/365RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving

转自：https://mp.weixin.qq.com/s/wkkWzjm8o5QH5KwNmFO7xA##

作者来自泡泡机器人图灵智库李培玄

摘要

我们提出了一种高效和准确的单目三维检测方法。大多数基于图像的三维检测方法都将3DBBox到2DBBox的几何约束当作其重要的组件，然而四条边仅能提供四个几何约束，这使得2DBBox有微小误差时也会造成3D检测性能的急剧下降。与这些方法不同我们将三维检测问题重新定义为图像空间中的9关键点检测问题。9个关键点可以提供18个几何约束，这就可以完全恢复出3DBBOx的尺寸，方向和位置。我们的几何约束方法即使在关键点检测有很大噪声时也能稳定的进行三维检测，这使得我们可以利用一个很小的结构去进行关键点检测从而提高整个三维检测速度。我们的方法时第一个实时单目三维检测系统，并且在不利用其它训练数据和独立运行的网络时获得了最好的效果。

主要贡献

我们将单目三维检测作为关键点检测问题，并结合几何约束来更有效、准确地生成三维物体的属性。
我们提出了一种新颖的单阶段多尺度网络用于三维关键点检测，为多尺度目标提供精确的投影点。
我们提出一个整体的能量函数，可以联合优化先验和三维目标信息。
在KITTI基准上的评估，我们是第一个只使用图像的实时三维检测方法，在相同的运行时间下，在与其他竞争对手的比较中，我们也能获得更好的准确性。

方法

如图一所示，我们首先提出一种针对车辆的单阶段关键点检测网络。然后了利用这些网络生成的关键点和几何约束便可以推断出物体的信息。
每天一篇论文 324/365RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving
图一，提出的方法流程图

关键点检测网络
我们的关键点检测网络仅仅利用RGB图像作为输入，并且输出9个3Dbbox的投影点和其它先验信息。

图二，关键点检测网络
如图一所示，整体结构与centernet相似由三个部分组成: backbone、关键点特征金字塔和检测头。
1）backbone：为了达到速度与精度的折中，我们采用ResNet18和DLA34两种backbone。我们利用U-Net结构的跨连接层将backbone下采样4倍。
2）关键点特征金字塔：关键点检测很难采用2D检测的FPN,因为在小尺度时距离较近的关键点很容易重叠。如图二所示我们提出了一种专为检测关键点的特征金字塔层。

图三，关键点特征金字塔
3）检测头：如图一所示，检测头可由三个基本的组件和六个可选组件组成。其中由于在截断情况下3D中心的投影点可能会超出图像边界，因此maincenter采用2DBBox的中心点。
3D BBox 估计
根据关键点检测网络预测的9个关键点和可选的组件我们可以将其用统一框架进行优化便可得到最终的3D信息。
主要结果
1、与其它方法的AP(3D)，AP(BEV）和时间比较结果如下：

可以看到Res18为backbone时可以达到最快的速度，同时Iou=0.7时精度仅次于M3D-RPN。当使用DLA34时可以获得最好的精度并且速度也比所有方法好。

2、部分可视化结果：
可以看到在截断区域和遮挡区域，提出的方法仍然可以准确检测。这得益于关键点检测提供的冗余几何约束信息。