论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第九章）

文章目录

9.追踪

9.1 立体跟踪
9.2 行人跟踪
9.3 最先进的
9.4 讨论

9.追踪

在跟踪中，我们的目标是在给定传感器的测量值的情况下估计一个或多个对象随时间的状态。通常，物体的状态由它在某一时刻的位置、速度和加速度来表示。对其他交通参与者的跟踪是自动驾驶中一个非常重要的任务。例如，考虑车辆的制动距离，它的速度是二次增长的。如果可能与其他交通参与者发生冲突，系统需要尽早做出反应。其他交通参与者的轨迹可以预测未来的位置并预测可能发生的碰撞。对于行人和骑自行车的人来说，预测未来的行为尤其困难，因为他们会突然改变自己的运动方向。然而，与交通参与者的分类相结合的跟踪允许车辆的速度适应该情况。此外，跟踪其他车辆可以用于自动距离控制并且可以在早期预测其他交通参与者的可能驾驶操作（例如接管）。
挑战:跟踪系统必须能够应对各种各样的挑战。通常情况下，对象会被其他对象或自身部分或完全遮挡。不同对象的相似性是另一个挑战，特别是对于同一类的对象。在有行人的情况下物体的相互作用进一步增加了遮挡的数量并且使得难以跟踪每个单独的物体。不佳的照明条件以及镜子或窗户的反射会带来额外的挑战。
公式化:目前已经开发了几种类型的传感器可以用来解决跟踪问题，例如单目摄像机、立体摄像机和激光扫描仪。传统上，跟踪被公式化为贝叶斯推理问题。在该公式中，目标是在给定当前观测和先前状态(s)的情况下估计状态的后验概率密度函数。后验通常以递归方式更新，其中使用运动模型的预测步骤和使用观察模型的校正步骤。在每次迭代中，都要解决数据关联问题以将新观察结果分配给被跟踪对象。扩展的卡尔曼和粒子滤波算法(Giebel et al(2004);Breitenstein et al (2011);Choi等人(2013))在这一背景下被广泛使用。不幸的是，递归的方法使得很难从检测的错误中恢复，并且由于缺少观测结果而无法跟踪遮挡。因此，非递归方法得到了广泛的应用，该方法优化了全局能量函数与时间窗口中所有轨迹的关系。然而，每个物体可能的目标轨迹的数量和场景中潜在目标的数量导致了一个非常大的搜索空间。
论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第九章）
图38:Andriyenko & Schindler(2011)提出的能量函数分量。上一行和下一行显示了具有更高和更小能量的配置。较暗的灰度值对应较高的目标概率。改编自Andriyenko & Schindler(2011)。
解决这个问题的一种方法是限制可能的位置集并解决数据关联问题。Zhang等人(2008)提出了一个优雅的解决方案，将任务转换为一个最小成本流问题，该问题可以在一元和成对潜力存在的情况下在多项式时间内全局最优地解决。它们通过使用显式的遮挡模型来增强网络，从而处理长期的对象间遮挡。Leibe等人(2008b)将重点放在自动驾驶汽车应用上，提出了一种非马尔可夫假设选择框架用于在线跟踪。Ess等人(2009a)通过立体视觉和测距深度的整合，扩展了这种方法。
作为离散化的替代方案，已经提出了连续能量最小化方法。对于这种高度非凸性的问题，Andriyenko＆Schindler（2011）使用搜索式能量最小化方案，重复跳跃移动以逃离周最小值并更好地探索变维搜索空间。其能量函数的不同分量的影响如图38所示。考虑到目标动力学、相互排斥和跟踪持久性等物理约束，Milan et al.(2014)扩展Andriyenko & Schindler(2011)的连续能量函数。本质即在离散域上将每个观测值分配给数据关联中的某个目标。因此，Andriyenko等人(2012)认为联合离散和连续的公式能够更自然地描述跟踪问题。他们的方法在用标签成本的离散优化方法来解决数据关联问题和在不考虑标签成本的情况下分析拟合连续轨迹之间交替进行。Milan等(2013)提出了一种混合离散-连续条件随机场模型，该模型专门针对数据关联和轨迹估计中的互斥问题。在数据关联中，每个观测值最多分配给一个目标，而在轨迹估计中，两个轨迹始终保持空间分离。
跟踪多目标最常用的方法是通过检测跟踪。分类器用于检测某个类的目标，这些目标随着时间的推移需要相互关联。这个公式在多目标跟踪中非常流行，因为只跟踪相关的目标，这样可以节省计算资源。然而，跟踪结果直接受到分类器检测误差的影响。
论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第九章）
图39:Leibe et al(2008b)使用检测和相应的自顶向下的分割方法来学习用于跟踪特定对象的颜色模型。改编自Leibe et al. (2008b)。
多重线索:对于数据关联，已经发现不同互补线索的组合，可以提高跟踪系统的鲁棒性。Giebel等人（2004）使用不同的线性子空间模型来学习时空形状表示，该模型可以处理外观变化并且在粒子滤波器的观察模型中组合来自立体的形状，纹理和深度。类似地，Gavrila & Munder(2007)将相同的线索集成到带有级联模块的检测和跟踪系统中。基于立体的兴趣生成区域、基于形状的检测、基于纹理的分类和基于立体的验证等能够使系统专注于相关的图像区域。他们通过形状匹配的结果对基于纹理的组件分类器进行加权，提出了一种新颖的专家混合体结构。Choi等人(2013)组合使用检测系统，每一种检测系统都专门针对不同的任务(行人和上半身、脸部、肤色、基于深度的形状和运动)进行外观跟踪。在观测似然中结合了所有探测系统的反馈，改善了观测与跟踪的匹配。

9.1 立体跟踪

目前一些工作已经研究了用于物体跟踪和立体深度估计的联合公式，在估计场景中的物体的轨迹的同时获得场景的结构。Leibe等(2007,2008b)提出了一种结合场景几何估计、二维目标检测、三维定位、轨迹估计和跟踪的方法。他们使用图39所示的对象检测和自顶向下的目标分割来学习对象特定的颜色模型。场景结构用于寻找物理上可信的时空轨迹，并且最终的全局优化准则考虑了物体与物体的相互作用，从而细化了三维定位和轨迹估计结果。Ess等人(2009a)使用图形模型，联合估计摄像机的位置、立体深度、目标检测和所有物体随时间的姿态。因此，图形模型表示了不同组件之间的交互，并合并了对象-对象交互。
检测前跟踪：除了便于解决跟踪问题之外，深度还允许将场景分割成与其类别无关的不同对象。在跟踪前检测中，这些被分割的类无关对象会被直接视为跟踪公式的观测值。这种方式下，跟踪系统是独立于分类器的，因此也允许跟踪以前从未见过的对象或只存在少量训练数据的对象。此外，来自物体估计轨迹的运动信息可以作为检测某一类物体的另一个线索。Mitzel＆Leibe（2012）通过使用立体深度对场景进行分割来提取对目标的观察。通过紧凑的3D表示，他们可以稳定地跟踪已知和未知的对象类别。该表示还允许它们检测诸如携带物品之类的异常形状。

9.2 行人跟踪

如前所述，对行人的跟踪和检测对于自动驾驶来说尤为重要。Andriluka等人(2008)将检测和人体姿态跟踪的优点结合在一个单一框架中。他们使用基于肢体的结构模型扩展了最先进的人体检测器，并使用分层高斯过程潜变量模型（hGPLVM）对检测到的肢体进行动态建模。相比只考虑一帧的方法，这使得他们能够更可靠地检测到人。结合一个隐藏的马尔科夫模型(HMM)，他们可以在很长的序列中跟踪人们。他们将Andriluka等人（2010）中的这一想法扩展到单目图像的3D姿态估计。在第一阶段，他们估计人们的二维清晰度和观点，并通过少数帧将他们联系起来。然后利用累积的二维图像证据用hGPLVM估计三维姿态。通过与HMM的组合可以实现更长时间的跟踪。这种方法使他们能够从单目图像中准确地估计出多人的三维姿态。

9.3 最先进的

最流行的多对象跟踪的数据集有PETS (Ferryman& Shahrokni(2009)), TUD (Andriluka et al .(2008)),ETHZ(Ess et al .(2008))、MOT (Leal-Taixe´et al。(2015);Milan et al.(2016))和KITTI (Geiger et al. (2012b, 2013))。而PETS和TUD只提供来自静态观察者的数据，其他则是通过移动平台获得的，移动平台更接近自动驾驶设置。在MOTChallenge（Leal-Taixe等人（2015））中，作者通过提出新的大型数据集和评估方法，解决了多目标跟踪缺乏集中基准的问题。该基准测试为跟踪任务提供了检测地面事实，允许采用基于跟踪对象的能力比较方法，而不受检测器引起的错误的影响。表12提供了使用检测真实值的方法的排行榜，而表13所示为使用私有检测器的方法的排行榜。对于自动驾驶应用程序，KITTI (Geiger et al. (2012b))提供了两个基准，一个用于表14中的汽车跟踪(KITTI car)，另一个用于表15中的行人跟踪。用星号标记的方法使用区域检测(Wang et al.(2015))对跟踪性能进行独立比较。与MOTChallenge不同的是，这两个单独的数据集允许将分析集中在一个对象类上，并深入研究与该类相关的问题。在表12、13、14、15中，我们考虑了Stiefelhagen et al.(2007)引入的两种流行的跟踪测量方法:多目标跟踪精度(MOTA)和多目标跟踪精度(MOTP)，以及多跟踪精度(MT)和多丢失轨迹(ML)的比值，ID交换器数量(IDS)和跟踪分割(FRAG)的数量。大多数被跟踪或被丢失的轨迹都是真实值轨迹，它们分别被假设覆盖了至少80%或最多20%。
论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第九章）
在MOT16上:为了克服由于跟踪对象外观变化带来的问题Fagot-Bouquet等人(2016)在能量最小化公式中使用基于稀疏表示的外观模型。这种外观模型使用被分组到字典中的少量模板来对目标外观建模，从而定义了一个线性子空间。Tang等人(2016b)提出了一个最小成本子图多重公式，解决了观测的时空关联，同时还结合了局部的成对特征。成对特征是基于局部外观匹配的，其对于部分遮挡和相机运动是鲁棒的。这使他们能够使用一种有效的算法，可以处理多次检测的长视频，并且在MOT16上的表现优于Fagot-Bouquet等（2016）。Levinkov et al .(2016)提出的利用所提供的检测地面真相的方法在MOT16上表现最佳。他们考虑一个组合优化问题，其解决方案定义了一个图的分解和节点标记。他们用一个单调收敛于局部极小值的局部搜索算法来解决这个问题。Tang等人(2016b)的多重公式可作为该算法的特例。
在KITTI上：对于汽车跟踪的任务，Lenz等人（2015）提出了Zhang等人（2008年）提出的最小成本流动跟踪公式的计算和记忆有界版本。这种方法实现了良好的准确性和精确度，同时也是KITTI汽车上最快的方法之一（表14）。
Yoon等人(2015)提出了另一种用于跟踪汽车和行人的在线跟踪方法。在这项工作中，他们解决了复杂的摄像机运动问题，在这种情况下，传统的运动模型不成立。他们通过构建一个相对运动网络来描述物体之间的相对运动从而来排除摄像机的运动的影响。利用贝叶斯公式，他们展示了使用多个相对运动模型的优势以及与Lenz等人(2015)相比的改进。在KITTI行人基准测试(表15)中，它们属于性能表现最佳的方法中的一部分。类似的性能实现了由Choi（2015）提出的近在线多目标跟踪算法，该算法被公式化为全局数据关联问题。他们的主要贡献是聚合了用于相对运动模式编码的本地流描述符（ALFD）。无论在何种应用场合，它们都能很好的与远距离探测相匹配。由于使用多种特征线索，他们的方法优于所有的在线跟踪KITTI汽车的方法。
论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第九章）
与贝叶斯的最小成本公式相反，Xiang等（2015a）将跟踪问题视为马尔可夫决策过程（MDP）。他们使用强化学习来学习MDP的策略，其对应于学习数据关联的相似性函数。Xiang et al（2015a）的这种方法是KITTI汽车上表现最好的方法之一。 Lee等人（2016b）将基于目标的卷积神经网络和运动检测器结合在贝叶斯过滤框架中。它们使用变化点检测算法检测漂移和遮挡。在两个KITTI基准测试（表14,15）中，这种方法在准确度（MOTA）和精度（MOTP）方面都优于其他方法。

9.4 讨论

只有通过合理的目标检测才能实现可靠的目标跟踪。当比较KITTI(表14,15)中有星号和没有星号的方法或MOT16排行榜中使用表12中的地面真值探测和表13中的目标探测器的方法时，可以观察到检测系统的影响。但是，在5.6节中已经讨论了目标检测器，因此我们将重点讨论跟踪问题。与检测问题类似，跟踪行人比跟踪汽车更具挑战性。原因是行人的运动很难预测，因为他们可能会突然改变方向，而汽车的运动则很容易建模。在真实场景中，车辆或行人的部分和完全遮挡经常会出现，从而导致检测失败。在这些情况下，跟踪系统需要重新识别被跟踪的对象，但光线条件的变化或被跟踪的对象与其他对象的相似性导致重新识别变得困难。这些问题会导致轨迹的重新初始化，这可以在MOT16和KITTI的FRAG和IDS中观察到。此外，我们注意到到目前为止大多数跟踪系统是很复杂的，并且在文献中尚未提出过端到端的多目标跟踪算法。因此弥补从检测到跟踪的这一差距可能是未来研究的一个有前途的途径。