Fast Online Object Tracking and Segmentation: A Unifying Approach ---SiamMask

Abstract

在这篇论文中，我们用一个简单的方法演示了如何实时地执行视觉对象跟踪和半监督视频对象分割。我们的方法，被称为SiamMask，改进了当前流行的全卷积Siamese方法的离线训练过程，通过增加它们的损失和一个二值分割任务。一旦接受了训练，SiamMask就只依赖于一个初始化的边界框，并在网上操作，生成类无关的对象分割蒙版和旋转边界框，速度为每秒55帧。尽管其简单、多功能性和快速，我们的策略允许我们在2018年投票的实时跟踪器中建立一个新的技术状态，同时在DAVIS-2016和DAVIS-2017上展示竞争性能和半监督视频对象分割任务的最佳速度。

1. Introduction

在任何视频应用程序中，跟踪都是一项基本任务，需要对感兴趣的对象进行一定程度的推理，因为它允许在帧[34]之间建立对象通信。它被广泛应用于自动监控、车辆导航、视频标签、人机交互和活动识别等领域。给定目标在视频的第一帧中的位置，视觉目标跟踪的目的是用最佳精度[48]估计其在所有后续帧中的位置。
对于许多应用程序，重要的是跟踪可以在线执行，而视频是流式的。换句话说，跟踪器不应该利用未来的帧来推断对象[26]的当前位置。 这是可视化对象跟踪基准所描述的场景，它用简单的轴对称(如[56,52])或旋转[26,27]边界框表示目标对象。这样一个简单的注释有助于降低数据标记的成本;更重要的是，它允许用户快速而简单地初始化目标。 Fast Online Object Tracking and Segmentation: A Unifying Approach ---SiamMask
图1所示。该方法针对视觉跟踪任务与视频目标分割任务的交叉，实现了很高的实用便利性。与传统的对象跟踪器一样，它依赖于一个简单的边界框初始化(蓝色)并在网上运行。与最先进的跟踪器如ECO12不同，SiamMask(绿色)能够生成二进制分割掩码，可以更准确地描述目标对象.
与目标跟踪类似，半监督视频目标分割(VOS)任务需要估计视频第一帧中指定的任意目标的位置。然而，在这种情况下，对象表示由一个二进制分割掩码组成，该掩码表示一个像素是否属于目标[40]。对于需要像素级信息的应用程序，如视频编辑[38]和旋转复制[37]，这种详细的表示形式是更可取的。可以理解，与简单的边界框相比，生成像素级估计值需要更多的计算资源。因此，VOS方法传统上比较慢，通常需要几秒钟的帧(例如[55、50、39、1])。最近，有一个对更快方法的兴趣激增[59、36、57、8、7、22、21]。然而，即使是最快的也无法进行实时操作.

在本文中，我们的目标是通过提出SiamMask来缩小任意目标跟踪和VOS之间的差距，这是一种简单的多任务学习方法， 可用于解决这两个问题。我们的方法是基于[3]离线训练数百万对视频帧(如[28,63,15,60])的全卷积Siamese网络的快速跟踪方法的成功，以及YouTube-VOS[58]的最新可用性，这是一个具有像素级注释的大型视频数据集。我们的目标是在保持这些方法的离线可训练性和在线速度的同时，显著地改进它们对目标对象的表示，这是一个简单的轴向对齐的边界框。
**为了实现这个目标，我们同时训练一个Siam网络完成三个任务，**每个任务对应一个不同的策略，在新帧中建立目标对象和候选区域之间的对应关系。就像Bertinetto等人的全卷积方法一样任务是学习目标之间的相似性度量对象和多个候选对象以滑动窗口的方式显示。 输出是一个密集的响应映射，仅指示对象的位置，但不提供有关其空间范围的任何信息。为了提炼这些信息，我们同时学习了两个进一步的任务:使用区域建议网络的边界盒回归[46,28]和类无关的二进制分割[43]。值得注意的是，只有在离线训练时才需要二进制标签来计算分割损失，而在分割/跟踪时不需要在线。在我们提出的架构中，每个任务都由与共享的CNN不同的分支表示，并构成最终的损失，这是三个输出的总和在一起。
一旦接受了训练，SiamMask仅仅依赖于一个边界框的初始化，在不更新的情况下进行在线操作，并生成对象分割蒙版和以每秒55帧的速度旋转的边界框。尽管其简单和快速，SiamMask建立了一个新的最先进的VOT-2018的实时目标跟踪问题。此外，该方法与最近的DAVIS-2016和DAVIS-2017上的半监督式VOS方法相比也很有竞争力，同时也是最快的方法。这个结果是通过一个简单的边界框初始化(与掩码相反)实现的，并且没有采用VOS方法中经常使用的昂贵技术，如微调[35,39,1,53]、数据增强[23,30]和光流[50,1,39,30,8]。
本文其余部分组织如下。第2节简要概述了一些最相关的前期工作，在视觉对象跟踪和半监督VOS;第三节介绍我们的建议;第四节以四种基准对其进行评价，并举例说明若干烧蚀研究;第五部分是本文的结论.