解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection

Deep Continuous Fusion for Multi-Sensor 3D Object Detection解读

论文作者及研究单位
摘要
解决问题
研究方法
网络结构
连续融合层的实现
Multi-Sensor Object Detection Network
损失

论文作者及研究单位

Ming Liang1, Bin Yang1,2, Shenlong Wang1,2, and Raquel Urtasun1,2
Uber Advanced Technologies Group， University of Toronto

摘要

在这篇论文中，提出了一种新的三维目标探测器，它可以利用激光雷达和摄像机来进行非常精确的定位。为了实现这一目标，设计了一种端到端可学习的体系结构，利用连续卷积将不同分辨率的图像和激光雷达特征图融合在一起。提出的连续融合层既可以对离散状态图像特征进行编码，也可以对连续的几何信息进行编码。这使得设计出一种新颖、可靠、高效的基于多传感器的端到端可学习三维物体探测器。

解决问题

激光雷达点是稀疏和连续的，而相机在离散状态下捕捉密集的特征；因此，融合它们是非常重要的。本篇论文的重点就是做了图像和鸟瞰图（BEV）的特征融合。

研究方法

本文提出了一种基于鸟瞰图（BEV）的三维物体检测器，通过学习将图像特征投影到BEV空间中，实现图像特征的融合。为了实现这一目标，我们设计了一种端到端可学习的体系结构，利用连续卷积将不同分辨率的图像和激光雷达特征图融合在一起。利用连续卷积对BEV空间中的每个点距离最近的图像进行信息提取。总体架构包括两个流，一个流提取图像特征，另一个从lidarbev提取特征。所提出的连续融合层能够编码两种模式下位置之间密集精确的几何关系。这是一种新颖、可靠、高效的基于多传感器的三维物体探测器。

网络结构

解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection 图1

连续融合层的实现

Deep Parametric Continuous Convolution
深度参数连续卷积是一个可学习的运算符，可对非网格结构数据进行操作。此运算符背后的动机是将标准网格结构卷积扩展到非网格结构数据，同时保持高容量和低复杂性。每个相邻邻居的权重根据其相对于目标点的相对几何偏移量不同。
解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
其中索引j位于点i的邻域上， f_j是输入的特征， x_j是该点所关联的连续坐标。MLP用于计算每个相邻点的卷积权重。参数连续卷积的优点是，它利用标准卷积的概念从相邻观测值中捕获局部信息，而不会导致几何信息损失的栅格化阶段。在本文中，本文认为连续卷积非常适合本文的任务，这是因为相机视图和BEV都通过3D点集连接起来，以无损的方式进行建模它们之间的几何关系是融合信息的关键。

Continuous Fusion Layer
本文提出的连续融合层利用连续卷积来解决两个问题：观测中的稀疏性和相机视图中图像空间离散特征的处理。给定输入相机图像特征图和一组激光雷达点，连续融合层的目标是创建一个稠密的BEV特征图，其中每个离散像素包含从相机图像中生成的特征。然后此稠密的特征图可以与从LIDAR中提取的BEV特征图轻松地融合。图像BEV融合的一个难点是，并非所有BEV空间上的离散像素都可以在相机中观察到。为了克服这一点，对于密集地图中的每个目标像素，本文使用欧氏距离在 2D BEV 平面上找到其最近的 K个 LIDAR 点。然后，本文利用 MLP 将来自这些 K 近邻点的信息融合在目标像素处"插值"未观察到的特征。对于每个源激光雷达点，本文的 MLP 的输入包含两个部分：首先，本文将源 LIDAR 点投影到图像平面上来提取相应的图像特征。其次，对源激光雷达点与密集BEV特征图上目标像素之间的3D相邻偏移进行编码，以便对每个激光雷达点相对于目标位置的贡献的依赖性进行建模。每个目标像素的MLP输入为K×(D_I+3)其中D_i为输入特征维度。MLP 通过对其所有相邻像素的 MLP 输出求和来输出 D_o维输出特征。这就是说：
解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
本文中多层感知器每层都有D_j个隐藏单元，最后所有相邻元素的输出求和，并且与BEV特征结合，就实现了多感知器信息的融合。

简单来说：
在2D BEV图像中的每一个像素，都找到K个邻域点然后投影到3D空间，再投影到图像中，这样就可以获得这些邻域点在图像中的特征，然后把这些邻域点的图像特征和与目标像素的坐标偏移量作为输入，输入到多层感知器中。最后把所有邻域点的输出相加，就得到了该目标点的图像特征。然后与BEV特征图融合形成稠密的特征图。

解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
注：

连续融合层利用MLP直接输出目标特征，而不是权重。
-该层融合了图像特征以及空间几何关系，能大大提高后续系统的感知能力。

Multi-Sensor Object Detection Network

骨干网络：ResNet18
融合层 ：四个连续融合层用于将多比例图像特征融合到 BEV 网络的四个残层中。每个连续融合图层的输入是从所有四个图像残差组的输出组合的图像特征图（多尺度融合）。本文使用与特征金字塔网络（FPN） [21] 相同的组合方法。BEV 空间中的输出特征与相应的 BEV 层具有相同的形状，并通过元素求和组合到 BEV 中。本文的最终 BEV 功能输出还以与 FPN [21] 类似的方式组合了最后三个剩余组的输出，以便利用多尺度信息。
简单来说：
图像特征图先进行多尺度融合，融合方式与FPN相同，然后进入连续融合层，输出的特征图与BEV层相加，最后BEV也是用多尺度融合后进行输出。
检测头 : 本文使用简单的检测标头来提高实时效率。在最终的 BEV 层上计算 1 × 1 卷积层以生成检测输出。在每个输出位置，本文使用两个具有固定大小和两个方向的锚点，分别为 0 和 π/2 弧度。每个锚点的输出包括每像素类置信度及其关联框的中心位置、大小和方向。接下来是非最大抑制（NMS）图层，用于生成基于输出映射的最终对象框。

损失

使用多任务损失来训练我们的网络。根据目标检测中的常见做法，将损失函数定义为分类和回归损失的总和。
解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
L_cls被定义为类可信度和标签之间的二进制交叉熵

其中，p_c是预测分类分数，l_c是二进制标签，N是样本数量。对于三维检测，L_reg是七项之和

其中（x，y，z）表示三维盒中心，（w，h，d）表示盒尺寸，t表示方向，Npos是正样本数。D是平滑的L1范数。

解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
pk和lk分别表示预测值和真实偏差，当k∈（x，y，z），p_k编码为：

p_k和l_k分别表示预测值和真实偏差，当k∈（x，y，z），pk编码为：

a_k是anchor的坐标
For k ∈ (w,h,d), p_k is encoded as:
解读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
a_k是anchor的尺寸
方向偏差可以简单地定义为预测方向和标记方向之间的差异：

注：根据距离groundtruth物体中心的距离确定正、负样本。