Simple Baseline for Multi-Object Tracking

论文地址:https://arxiv.org/pdf/1703.07402.pdf

随着多任务学习[15]的成熟,联合检测对象和学习Re-ID特征的one-shot开始吸引更多的关注[36,33].由于两个模型的大部分特征是共享的,因此它们有可能大幅减少推理时间。然而,目前的one-shot方法的准确度比two-step的准确度明显下降,特别是ID switches的数量增加了很多,这将在实验部分显示。实验结果表明,将这两个任务结合起来并不是一件小事,应该谨慎对待。

我们没有使用技巧来提高准确度,而是研究失败背后的原因,并在这项工作中提出了一个简单而有效的基线。准确度的关键因素有三个。

Simple Baseline for Multi-Object Tracking

Fig. 1: (a) 黄色和红色的anchors 负责估计同一个ID(穿蓝色衬衫的人),尽管图像补丁非常不同。此外,基于anchors 的方法通常在粗网格上运行。因此,在anchors 定处提取的特征(红星或黄星)很有可能与对象中心不对齐。(b) 无anchors 方法受模糊性影响较小。

(1) Anchors don’t t Re-ID

目前的 one-shot跟踪器[36,33]都是基于anchors 的,因为它们是从目标检测器[26,12]修改的。然而,由于两个原因,anchors 不适合学习Re-ID特征。首先,对应于不同图像块的多个anchors 可能负责估计同一对象的身份。这会给网络造成严重的歧义。如图1所示。**此外,特征图通常向下采样8次,以平衡精度和速度。这个对于检测来说是可以接受的,但是对于ReID来说太粗糙了,因为对象中心可能与在粗略anchors 位置提取的用于预测对象身份的特征不一致。**我们将MOT问题作为一个像素级的关键点(目标中心)估计和高分辨率特征映射上的身份分类问题来解决。

(2) Multi-Layer Feature Aggregation

这对于MOT尤其重要,因为Re ID特性需要利用低级和高级特性来容纳小型和大型对象。我们在实验中观察到,这有助于减少one-shot方法的身份切换,因为它提高了处理尺度变化的能力。请注意,两步方法的改进不太显著,因为对象在裁剪和调整大小操作后将具有相似的比例。

Simple Baseline for Multi-Object Tracking

图2:我们的 one-shot MOT跟踪器概述。输入图像首先被馈送到编码器-解码器网络以提取高分辨率特征映射(步长=4)。然后我们增加两个简单的平行头,分别用于预测边界盒和Re-ID特征。提取预测对象中心处的特征进行时空边界框链接。

(3) Dimensionality of the ReID Features

以往的ReID方法通常学习高维特征,并在其基准上取得了可喜的结果。然而,我们发现,由于MOT的训练图像比ReID少,所以低维特征实际上对MOT更好(我们不能使用ReID数据集,因为它们只提供裁剪的人物图像)。学习低维特征有助于降低小数据的过度拟合风险,提高跟踪鲁棒性。

我们提出了一个简单的基线,它共同考虑了上述三个因素。请注意,我们并不要求在算法上比以前的作品新颖。相反,我们的贡献在于首先确定了单发追踪器背后的挑战,然后将在计算机视觉领域发展起来的一些技术和概念结合起来,以解决在以前的MOT工作中被忽略的挑战。

我们方法的概述如图2所示。我们首先采用anchor-free的目标检测方法来估计高分辨率特征地图上的目标中心[45,17,46,9]。

anchor的消除缓解了模糊问题,使用高分辨率的特征映射可以使Re-ID特征更好地与对象中心对齐。然后,我们添加一个并行分支来估计像素级的Re-ID特征,这些特征用于预测对象的身份。特别是学习了低维特征,不仅减少了计算时间,而且提高了特征匹配的鲁棒性。我们为骨干网[13]配备了深层聚合算子[42](Deep Layer
Aggregation operator),以融合多层的特征,从而处理不同尺度的对象。

2 Related Work

在本节中,我们分别将MOT的相关工作分为两步法和一次法进行简要回顾。在此,我们讨论了这些方法的优缺点,并与我们的方法进行了比较。

2.1 Two-Step MOT Methods

目前最先进的MOT方法如[38,41,23,47,11]通常将物体检测和重新识别作为两个独立的任务。它们首先应用CNN检测器如[27,12,26]将图像中所有感兴趣的对象通过若干个方框进行定位。**然后在单独的步骤中,他们根据boxes裁剪图像,并将其送入身份嵌入网络,以提取Re-ID特征,并将盒子连接起来,形成多个轨道。通常采用盒连接的标准方法,首先根据包围盒的Re-ID特征和交并(IoU)计算代价矩阵,然后使用Kalman滤波[37]和匈牙利算法[16]来完成连接任务。**少数文献如[23,47,11]使用了更复杂的关联策略,如组模型和RNNs。

两步方法的优点是,它们可以分别为每个任务使用最合适的模型,而不必做出妥协。此外,它们还可以根据检测到的边界框裁剪图像块,并在预测Re-ID特征之前将其大小调整为相同的大小。这有助于处理对象的比例变化。因此,这些方法在公共数据集上取得了最好的性能。然而,由于目标检测和Re-ID特征嵌入都需要大量的计算而不需要共享,因此它们通常速度很慢。因此,在许多应用中都很难实现视频速率推断。

2.2 One-Shot MOT Methods

随着多任务学习在深度学习中的成熟[15,25,30],one-shot MOT开始引起更多的研究关注。其核心思想是在单个网络中同时完成目标检测和身份嵌入(Re-ID特征),通过共享大部分计算来减少推理时间。例如,Track RCNN[33]在Mask RCNN[12]的顶部添加一个Re-ID头,并为每个方案回归一个边界框和一个Re-ID特征。JDE[36]是在YOLOv3[26]框架的基础上引入的,实现了近视频速率推断。

然而,one-shot跟踪法的跟踪精度通常低于两步跟踪法。我们发现这是因为学习到的Re-ID特性不是最优的,这导致了大量的ID switches。我们深入研究了产生这种现象的原因,发现锚定点提取的身份嵌入特征与目标中心不一致,导致严重的含糊不清解决这个问题,我们建议在目标检测和身份嵌入中使用无锚方法,这将显著提高所有基准点上的跟踪精度。我们深入研究了anchors 位置提取的身份嵌入特征与目标中心不一致的原因,发现anchors 位置提取的身份嵌入特征与目标中心不一致,导致严重的错误含糊不清解决这个问题,我们建议在目标检测和身份嵌入中使用anchors 方法,这将显著提高所有基准点上的跟踪精度。

3 The Technical Approach

在这一部分中,我们分别给出了骨干网、目标检测分支和Re-ID特征嵌入分支的详细信息。

3.1 Backbone Network

我们采用ResNet-34[13]作为骨干,以便在精度和速度之间取得良好的平衡。为了适应不同规模的对象,深层聚合(DLA Deep Layer Aggregation)[45]的变体被应用到主干上,如图2所示。与原来的DLA[42]不同,它在低级和高级特征之间有更多的跳跃连接,这类似于特征金字塔网络(FPN)[19]。此外,上采样模块中的所有卷积层都被可变形卷积层所代替,以便它们能够根据对象的尺度和姿态动态地适应感受野。这些修改也有助于缓解对齐问题。结果模型命名为DLA-34。表示输入图像的大小为Himage×WimageH_{image}\times W_{image},输出特征图的形状为C×H×WC\times H\times W,其中H=Himage/4H=H_{image}/4W=Wimage/4W=W_{image}/4

3.2 Object Detection Branch

在[45]之后,我们将目标检测视为高分辨率特征图上基于中心的包围盒回归任务。特别地,三个平行回归头被附加到主干网络中,以分别估计热图、对象中心偏移和边界框大小。每个头部通过对骨干网络的输出特征映射应用3x3卷积(带256个信道)来实现,接着是生成最终目标的1x 1卷积层。

Heatmap Head 这个头负责估计物体中心的位置。这里采用基于热图的表示方法,这是地标点估计任务的事实标准。特别是,热图的尺寸为1x Hx W。如果热图中的某一位置与ground-truth物体中心相符合,则预计该位置的响应为一。响应随着热图中的位置与对象中心之间的距离呈指数级衰减。

Center Offset Head 这个头负责更精确地定位物体。回想一下,特征图的步长是4,这将引入不可忽略的量化误差。请注意,对物体检测性能的好处可能是微不足道的。但它对跟踪至关重要,因为Re-ID特征要根据准确的对象中心来提取。我们在实验中发现,ReID特征与对象中心的仔细对齐对性能至关重要。

Box Size Head

该头负责估算每个anchor位置的目标边界框的高度和宽度。该头与Re-ID特征没有直接关系,但定位精度将影响物体检测性能的评估。

3.3 Identity Embedding Branch

身份嵌入分支的目标是生成能够区分不同对象的特征。理想情况下,不同物体之间的距离应大于同一物体之间的距离。为了达到目标,我们在骨干特征上应用了128个内核的卷积层来提取每个位置的身份嵌入特征。得到的feature map为ER128×W×HE\in R^{128\times W\times H}

3.4 Loss Functions

Heatmap Loss 对于在图片中的每个GT box bi=(x1i,y1i,x2i,y2i)b^i=(x^i_1,y^i_1,x^i_2,y^i_2),我们用和cyi=y1i+y2i2c^i_y=\frac{y_1^i+y_2^i}{2} 计算对象的中心 (cxi,cyi)(c^i_x,c^i_y) 。然后通过划分步幅得到其在feature map上的位置(cxi~,cyi~)=([cxi4],[cyi4])(\widetilde{c^i_x},\widetilde{c^i_y})=([\frac{c^i_x}{4}],[\frac{c^i_y}{4}]) 。则该位置(x,y)计算为Simple Baseline for Multi-Object Tracking

其中N表示图像中物体的数量,σc\sigma_c表示标准差。损失函数定义为像素对数回归[20]的focal loss。

Simple Baseline for Multi-Object Tracking

其中M^\hat M是估计热图,α,β\alpha,\beta是参数。

Offset and Size Loss 我们将size head和offset head的输出表示为:S^RW×H×2\hat S\in R^{W\times H\times 2}O^RW×H×2\hat O\in R^{W\times H\times 2}。对于图片中的每个GT box bi=(x1i,y1i,x2i,y2i)b^i=(x^i_1,y^i_1,x^i_2,y^i_2),我们可以计算它的大小si=(x2ix1i,y2iy1i)\mathbf s^i=(x^i_2-x^i_1,y^i_2-y^i_1)。同样,GT偏移量也可以计算为Simple Baseline for Multi-Object Tracking。用si^\hat{\mathbf s^i}oi^\hat{\mathbf o^i}分别代表估计大小和估计偏差。然后我们对两个头执行l1损失:

Simple Baseline for Multi-Object Tracking

Identity Embedding Loss 我们把对象身份嵌入看作一个分类任务。尤其是,训练集中同一标识的所有对象实例都被视为一个类。对于图片中的每个GT box bi=(x1i,y1i,x2i,y2i)b^i=(x^i_1,y^i_1,x^i_2,y^i_2),我们获得了热图上的物体中心(cxi~,cyi~)(\widetilde{c^i_x},\widetilde{c^i_y}) 。我们在该位置提取一个身份特征向量Exi,yiE_{x^i,y^i},并学习将其映射到一个类分布向量p(k)。将GT类标签的one-hot表示形式表示为Li(k)\mathbf L^i(k)。然后我们将softmax损耗计算为:

Simple Baseline for Multi-Object Tracking

其中K是类的数量。

3.5 Online Tracking

在这一部分中,我们将解释我们模型的推论,以及如何利用检测结果和身份嵌入来执行box跟踪。

Network Inference 网络将1088x608大小的图像作为输入,这与先前的工作JDE[36]相同。在预测热图的基础上,根据热图得分进行非最大值抑制(NMS)以提取峰值关键点。我们保留热图分数大于阈值的关键点的位置。然后,根据估计的偏移量和盒大小计算相应的边界盒。在估计的目标中心提取身份嵌入。

预测热图的基础上,根据热图得分进行非最大值抑制(NMS)以提取峰值关键点。我们保留热图分数大于阈值的关键点的位置。然后,根据估计的偏移量和盒大小计算相应的边界盒。在估计的目标中心提取身份嵌入。

Online Box Linking 我们使用标准的在线跟踪算法来实现盒子链接。我们根据第一帧中的估计框初始化多个tracklet。在随后的帧中,我们根据Re ID特征和IoU测量的距离将这些框链接到现有的轨迹。我们还使用卡尔曼滤波器来预测当前帧中轨迹的位置。如果离链接检测太远,我们将相应的成本设置为无穷大,这样可以有效地防止链接检测的大运动。我们在每个时间步长中更新跟踪器的外观特征,以处理外观变化,如[4,14]。

相关文章: