Simple Baseline for Multi-Object Tracking

论文地址：https://arxiv.org/pdf/1703.07402.pdf

随着多任务学习[15]的成熟，联合检测对象和学习Re-ID特征的one-shot开始吸引更多的关注[36,33].由于两个模型的大部分特征是共享的，因此它们有可能大幅减少推理时间。然而，目前的one-shot方法的准确度比two-step的准确度明显下降，特别是ID switches的数量增加了很多，这将在实验部分显示。实验结果表明，将这两个任务结合起来并不是一件小事，应该谨慎对待。

我们没有使用技巧来提高准确度，而是研究失败背后的原因，并在这项工作中提出了一个简单而有效的基线。准确度的关键因素有三个。

Fig. 1: (a) 黄色和红色的anchors 负责估计同一个ID（穿蓝色衬衫的人），尽管图像补丁非常不同。此外，基于anchors 的方法通常在粗网格上运行。因此，在anchors 定处提取的特征（红星或黄星）很有可能与对象中心不对齐。(b）无anchors 方法受模糊性影响较小。

(1) Anchors don’t t Re-ID

目前的 one-shot跟踪器[36,33]都是基于anchors 的，因为它们是从目标检测器[26,12]修改的。然而，由于两个原因，anchors 不适合学习Re-ID特征。首先，对应于不同图像块的多个anchors 可能负责估计同一对象的身份。这会给网络造成严重的歧义。如图1所示。**此外，特征图通常向下采样8次，以平衡精度和速度。这个对于检测来说是可以接受的，但是对于ReID来说太粗糙了，因为对象中心可能与在粗略anchors 位置提取的用于预测对象身份的特征不一致。**我们将MOT问题作为一个像素级的关键点（目标中心）估计和高分辨率特征映射上的身份分类问题来解决。

(2) Multi-Layer Feature Aggregation

这对于MOT尤其重要，因为Re ID特性需要利用低级和高级特性来容纳小型和大型对象。我们在实验中观察到，这有助于减少one-shot方法的身份切换，因为它提高了处理尺度变化的能力。请注意，两步方法的改进不太显著，因为对象在裁剪和调整大小操作后将具有相似的比例。

Simple Baseline for Multi-Object Tracking

图2：我们的 one-shot MOT跟踪器概述。输入图像首先被馈送到编码器-解码器网络以提取高分辨率特征映射（步长=4）。然后我们增加两个简单的平行头，分别用于预测边界盒和Re-ID特征。提取预测对象中心处的特征进行时空边界框链接。

(3) Dimensionality of the ReID Features

以往的ReID方法通常学习高维特征，并在其基准上取得了可喜的结果。然而，我们发现，由于MOT的训练图像比ReID少，所以低维特征实际上对MOT更好（我们不能使用ReID数据集，因为它们只提供裁剪的人物图像）。学习低维特征有助于降低小数据的过度拟合风险，提高跟踪鲁棒性。

我们提出了一个简单的基线，它共同考虑了上述三个因素。请注意，我们并不要求在算法上比以前的作品新颖。相反，我们的贡献在于首先确定了单发追踪器背后的挑战，然后将在计算机视觉领域发展起来的一些技术和概念结合起来，以解决在以前的MOT工作中被忽略的挑战。

我们方法的概述如图2所示。我们首先采用anchor-free的目标检测方法来估计高分辨率特征地图上的目标中心[45,17,46,9]。

anchor的消除缓解了模糊问题，使用高分辨率的特征映射可以使Re-ID特征更好地与对象中心对齐。然后，我们添加一个并行分支来估计像素级的Re-ID特征，这些特征用于预测对象的身份。特别是学习了低维特征，不仅减少了计算时间，而且提高了特征匹配的鲁棒性。我们为骨干网[13]配备了深层聚合算子[42]（Deep Layer
Aggregation operator），以融合多层的特征，从而处理不同尺度的对象。

2 Related Work

在本节中，我们分别将MOT的相关工作分为两步法和一次法进行简要回顾。在此，我们讨论了这些方法的优缺点，并与我们的方法进行了比较。

2.1 Two-Step MOT Methods

目前最先进的MOT方法如[38,41,23,47,11]通常将物体检测和重新识别作为两个独立的任务。它们首先应用CNN检测器如[27,12,26]将图像中所有感兴趣的对象通过若干个方框进行定位。**然后在单独的步骤中，他们根据boxes裁剪图像，并将其送入身份嵌入网络，以提取Re-ID特征，并将盒子连接起来，形成多个轨道。通常采用盒连接的标准方法，首先根据包围盒的Re-ID特征和交并（IoU）计算代价矩阵，然后使用Kalman滤波[37]和匈牙利算法[16]来完成连接任务。**少数文献如[23,47,11]使用了更复杂的关联策略，如组模型和RNNs。

两步方法的优点是，它们可以分别为每个任务使用最合适的模型，而不必做出妥协。此外，它们还可以根据检测到的边界框裁剪图像块，并在预测Re-ID特征之前将其大小调整为相同的大小。这有助于处理对象的比例变化。因此，这些方法在公共数据集上取得了最好的性能。然而，由于目标检测和Re-ID特征嵌入都需要大量的计算而不需要共享，因此它们通常速度很慢。因此，在许多应用中都很难实现视频速率推断。

2.2 One-Shot MOT Methods

随着多任务学习在深度学习中的成熟[15,25,30]，one-shot MOT开始引起更多的研究关注。其核心思想是在单个网络中同时完成目标检测和身份嵌入（Re-ID特征），通过共享大部分计算来减少推理时间。例如，Track RCNN[33]在Mask RCNN[12]的顶部添加一个Re-ID头，并为每个方案回归一个边界框和一个Re-ID特征。JDE[36]是在YOLOv3[26]框架的基础上引入的，实现了近视频速率推断。

然而，one-shot跟踪法的跟踪精度通常低于两步跟踪法。我们发现这是因为学习到的Re-ID特性不是最优的，这导致了大量的ID switches。我们深入研究了产生这种现象的原因，发现锚定点提取的身份嵌入特征与目标中心不一致，导致严重的含糊不清解决这个问题，我们建议在目标检测和身份嵌入中使用无锚方法，这将显著提高所有基准点上的跟踪精度。我们深入研究了anchors 位置提取的身份嵌入特征与目标中心不一致的原因，发现anchors 位置提取的身份嵌入特征与目标中心不一致，导致严重的错误含糊不清解决这个问题，我们建议在目标检测和身份嵌入中使用anchors 方法，这将显著提高所有基准点上的跟踪精度。

3 The Technical Approach

在这一部分中，我们分别给出了骨干网、目标检测分支和Re-ID特征嵌入分支的详细信息。

3.1 Backbone Network

我们采用ResNet-34[13]作为骨干，以便在精度和速度之间取得良好的平衡。为了适应不同规模的对象，深层聚合（DLA Deep Layer Aggregation）[45]的变体被应用到主干上，如图2所示。与原来的DLA[42]不同，它在低级和高级特征之间有更多的跳跃连接，这类似于特征金字塔网络（FPN）[19]。此外，上采样模块中的所有卷积层都被可变形卷积层所代替，以便它们能够根据对象的尺度和姿态动态地适应感受野。这些修改也有助于缓解对齐问题。结果模型命名为DLA-34。表示输入图像的大小为 $H_{image}\times W_{image}$ ，输出特征图的形状为 $C\times H\times W$ ，其中 $H=H_{image}/4$ 且 $W=W_{image}/4$ 。

3.2 Object Detection Branch

在[45]之后，我们将目标检测视为高分辨率特征图上基于中心的包围盒回归任务。特别地，三个平行回归头被附加到主干网络中，以分别估计热图、对象中心偏移和边界框大小。每个头部通过对骨干网络的输出特征映射应用3x3卷积（带256个信道）来实现，接着是生成最终目标的1x 1卷积层。

Heatmap Head 这个头负责估计物体中心的位置。这里采用基于热图的表示方法，这是地标点估计任务的事实标准。特别是，热图的尺寸为1x Hx W。如果热图中的某一位置与ground-truth物体中心相符合，则预计该位置的响应为一。响应随着热图中的位置与对象中心之间的距离呈指数级衰减。

Center Offset Head 这个头负责更精确地定位物体。回想一下，特征图的步长是4，这将引入不可忽略的量化误差。请注意，对物体检测性能的好处可能是微不足道的。但它对跟踪至关重要，因为Re-ID特征要根据准确的对象中心来提取。我们在实验中发现，ReID特征与对象中心的仔细对齐对性能至关重要。

Box Size Head

该头负责估算每个anchor位置的目标边界框的高度和宽度。该头与Re-ID特征没有直接关系，但定位精度将影响物体检测性能的评估。

3.3 Identity Embedding Branch

身份嵌入分支的目标是生成能够区分不同对象的特征。理想情况下，不同物体之间的距离应大于同一物体之间的距离。为了达到目标，我们在骨干特征上应用了128个内核的卷积层来提取每个位置的身份嵌入特征。得到的feature map为 $E\in R^{128\times W\times H}$ 。

3.4 Loss Functions

Heatmap Loss 对于在图片中的每个GT box $b^i=(x^i_1,y^i_1,x^i_2,y^i_2)$ ，我们用和 $c^i_y=\frac{y_1^i+y_2^i}{2}$ 计算对象的中心 $(c^i_x,c^i_y)$ 。然后通过划分步幅得到其在feature map上的位置 $(\widetilde{c^i_x},\widetilde{c^i_y})=([\frac{c^i_x}{4}],[\frac{c^i_y}{4}])$ 。则该位置(x,y)计算为 Simple Baseline for Multi-Object Tracking

其中N表示图像中物体的数量， $\sigma_c$ 表示标准差。损失函数定义为像素对数回归[20]的focal loss。

Simple Baseline for Multi-Object Tracking

其中 $\hat M$ 是估计热图， $\alpha,\beta$ 是参数。

Offset and Size Loss 我们将size head和offset head的输出表示为: $\hat S\in R^{W\times H\times 2}$ 和 $\hat O\in R^{W\times H\times 2}$ 。对于图片中的每个GT box $b^i=(x^i_1,y^i_1,x^i_2,y^i_2)$ ，我们可以计算它的大小 $\mathbf s^i=(x^i_2-x^i_1,y^i_2-y^i_1)$ 。同样，GT偏移量也可以计算为 Simple Baseline for Multi-Object Tracking 。用 $\hat{\mathbf s^i}$ 和 $\hat{\mathbf o^i}$ 分别代表估计大小和估计偏差。然后我们对两个头执行l1损失:

Simple Baseline for Multi-Object Tracking

Identity Embedding Loss 我们把对象身份嵌入看作一个分类任务。尤其是，训练集中同一标识的所有对象实例都被视为一个类。对于图片中的每个GT box $b^i=(x^i_1,y^i_1,x^i_2,y^i_2)$ ，我们获得了热图上的物体中心 $(\widetilde{c^i_x},\widetilde{c^i_y})$ 。我们在该位置提取一个身份特征向量 $E_{x^i,y^i}$ ，并学习将其映射到一个类分布向量p(k)。将GT类标签的one-hot表示形式表示为 $\mathbf L^i(k)$ 。然后我们将softmax损耗计算为：

Simple Baseline for Multi-Object Tracking

其中K是类的数量。

3.5 Online Tracking

在这一部分中，我们将解释我们模型的推论，以及如何利用检测结果和身份嵌入来执行box跟踪。

Network Inference 网络将1088x608大小的图像作为输入，这与先前的工作JDE[36]相同。在预测热图的基础上，根据热图得分进行非最大值抑制（NMS）以提取峰值关键点。我们保留热图分数大于阈值的关键点的位置。然后，根据估计的偏移量和盒大小计算相应的边界盒。在估计的目标中心提取身份嵌入。

预测热图的基础上，根据热图得分进行非最大值抑制（NMS）以提取峰值关键点。我们保留热图分数大于阈值的关键点的位置。然后，根据估计的偏移量和盒大小计算相应的边界盒。在估计的目标中心提取身份嵌入。

Online Box Linking 我们使用标准的在线跟踪算法来实现盒子链接。我们根据第一帧中的估计框初始化多个tracklet。在随后的帧中，我们根据Re ID特征和IoU测量的距离将这些框链接到现有的轨迹。我们还使用卡尔曼滤波器来预测当前帧中轨迹的位置。如果离链接检测太远，我们将相应的成本设置为无穷大，这样可以有效地防止链接检测的大运动。我们在每个时间步长中更新跟踪器的外观特征，以处理外观变化，如[4,14]。