解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

文章目录

创新点
Introduction
PointPillars的介绍
MVF的介绍
本文主要贡献
网络结构
实验

创新点

本文提出了一种物体检测框架，主要的创新点有以下几个：

提出了基于pillar来预测bounding box的方法，预测每个支柱而不是每个点或者每个anchor的边界框参数
运用了圆柱视图
在支柱到点的投影时运用双线性插值的方法

Introduction

本文基于PointPillars和多视图融合（MVF）的思想，对于每个鸟瞰图支柱，模型都预测最佳的框的位置和姿态，提高了性能，并且比当前最新的3D对象检测管道更简单。

PointPillars的介绍

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

该网路主要有三个部分组成，支柱特征网络，骨干网络和SSD检测头。

支柱特征网络
该网络是用来生成伪图像。
首先在俯视图的平面上生成一张网格（H x W），然后对于每个网格所对应的柱子中的每一个点都取（x,y,z,r,x_c,y_c,z_c,x_p,y_p）9个维度。其中前三个为每个点的真实位置坐标，r为反射率，式中，c下标表示与支柱中所有点的算术平均值的距离，p下标表示距支柱x、y中心的偏移量。每个柱子中点多于N的进行采样，少于N的进行填充0。于是就形成了（D,N,P）D=9, N为点数（设定值），P为HW。然后学习特征，用一个简化的PointNet把D维特征变为C维，此时特征图为（C,N,P）然后对N进行最大化操作变为（C，P）又因为P是HW的，再展开成一个伪图像形式，H,W为宽高，C为通道数。
Backbone
骨干网络分为一个top-down网络和一个上采样网络，最后把特征拼接，
SSD检测头
检测3D bounding box

具体操作看原文

MVF的介绍

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
此网络利用鸟瞰图和前视图的特征融合来实现物体检测。首先将鸟瞰图和前视图动态体素化，并实现点到体素的一一对应。然后通过网络学习体素特征，接下来把体素特征投射到点，把每个点的不同视图的特征进行拼接，输入到检测头，实现bounding box回归预测。（其中前视图应用球坐标表示点的位置）

本文主要贡献

-为高质量3D对象检测提供了一个完全基于支柱的模型。该模型在最具挑战性的自动驾驶数据集上实现了最新的结果。
–分析了多视图特征学习模块，并发现圆柱视图是鸟瞰视图的最佳补充视图。
–在柱到点投影中使用双线性插值以避免量化误差。

网络结构

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

生成支柱特征

从点到支柱投影要素时，多个点可能会落入同一支柱。为了从支柱中的点聚合要素，使用了PointNet（表示为PN）来聚合来自点的要素以获得柱状要素，其中

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
然后，通过附加的卷积神经网络（CNN）进一步转换柱状特征，记为φpillar=Φ（fpillar），其中Φ表示CNN，为了从支柱中检索点状特征，可通过以下方式给出pillar对点特征投影：

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
MVF还包含球形支柱。给定点pi =（xi，yi，zi），其球坐标（ϕi，θi，di）通过

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
在MVF中，从两个视图中独立学习了柱状特征。然后使用等式2从这些视图中收集点状特征。接下来，将融合的逐点特征再次投影到鸟瞰图，并像PointPillars中一样通过CNN进行嵌入。

本文的补充中画出了一种提取多视图特征的网络结构，下图是提取一个视图特征的网络

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

本文应用圆柱视图，点pi的圆柱坐标（ρi，ϕi，zi）由下式给出

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
尽管与球形视图密切相关，但圆柱形视图不会在Z轴上引入变形。下图中显示了一个示例，其中汽车在圆柱视图中清晰可见，而在球视图中则无法区分。另外，球形视图中的物体不再处于其物理比例上，例如，远处的汽车变小。

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

视图融合

使用MVF以相同的方式聚合来自不同视图的要素。

Pillar-based Backbone

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

Detection Head

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

loss

基于支柱的预测模块由两个网络组成：分类网络和回归网络。预测目标由下式给出：

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
其中p表示支柱是否与地面真理盒正匹配，并且（∆x，∆y，∆z，∆l，∆w，∆h，θp）是回归目标位置，大小，和边界框的航向角。
真实边界框的参数设置为（xg，yg，zg，lg，wg，hg，θg）; 支柱的中心是（xp，yp，zp）; 边界框的预测目标为（∆x，∆y，∆z，∆l，∆w，∆h，θp）。那么，回归损失为：

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
其中：

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
We take σ = 3.0. For pillar classiﬁcation, we adopt the focal loss：

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
We use α = 0.25 and γ = 2。

Bilinear interpolation

在pillar-to-point时，应用双线性插值

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving
pillar-to-point投影中最近邻插值和双线性插值的比较。矩形（橙色）：鸟瞰柱；点（蓝色）：3D笛卡尔坐标中的点；点（绿色）：投影到支柱框架的点；点（红色）：支柱的中心。

实验

Comparing anchor-based, point-based, and pillar-based prediction

在本实验中，对直接预测pillar的box的参数，预测anchor的box参数、预测每个点的box参数进行了比价。
Anchor-based model
每个类别锚点都由宽度，长度，高度和中心位置来描述，并在两个方向上应用：0°和90°。 2D IoU使用以下规则将锚点与地面真相框匹配：正匹配是具有地面真值框的最高匹配，或者高于正匹配阈值（0.6）；而否定匹配项低于否定阈值（0.45）。框参数预测中将忽略所有其他锚。该模型用于预测锚点是正值还是负值，以及边界框的宽度，长度，高度，航向角和中心位置。
Point-based model
使用双线性插值法将每柱特征投影到点。然后，使用以下规则将每个点分配给其周围的框：如果点在边界框内，则将其分配为前景点；否则，这是一个背景点。要求模型预测二进制标签的点是前景点还是背景点。对于正点，模型还预测与其关联的边界框的宽度，长度，高度，航向角和中心偏移。这种基于点的模型是应用于此自动驾驶场景的VoteNet [28]的实例。关键区别在于：VoteNet [28]使用PointNet ++ [31]主干，而我们使用PointPillars [51]主干。
Pillar-based model
对每一个pillar预测一个box，并对box分类回归预测。基于支柱的预测在这三个选择中表现最好。基于支柱的预测模型在粗略预测（每个锚点）和细粒度预测（每个点）之间实现了最佳平衡。

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

View combinations

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving

与鸟瞰视图结合使用时，圆柱视图在所有指标上仍胜过其他视图。球形视图尽管与圆柱视图相似，但会在Z轴上产生变形，相对于圆柱视图会降低性能。另一方面，XZ视图不会使Z轴变形，但是Y轴上的遮挡会阻止它获得与圆柱视图相同的效果。

Bilinear interpolation or nearest neighbor interpolation?

对最近邻插值和双线性插值进行比较

解读ECCV2020：Pillar-based Object Detection for Autonomous Driving