SiamMask论文翻译

1. introduction

在任何需要对目标物体进行某种程度推理的视频应用中，跟踪都是一项基本任务，因为它允许在帧之间建立物体对应关系[34]。它可用于各种场景，例如自动监视，车辆导航，视频标签，人机交互和活动识别。视觉对象跟踪的目的是在给定视频第一帧中任意感兴趣目标的位置后，以尽可能最佳的精度估计其在所有后续帧中的位置。

对于许多应用程序而言，在视频流传输时可以在线进行跟踪非常重要。换句话说，跟踪器不应利用将来的帧来推断物体的当前位置[26]。这是视觉对象跟踪基准所描绘的场景，该基准代表具有简单轴对齐（例如[56，52]）或旋转[26，27]边界框的目标对象。这样简单的注释有助于保持较低的数据标记成本。此外，它还允许用户执行目标的快速、简单初始化。

与对象跟踪类似，半监督视频对象分割（VOS）的任务需要估计在视频的第一帧中指定的任意目标的位置。但是，在这种情况下，对象表示由二进制分割掩码组成，该掩码表示像素是否属于目标[40]。对于需要像素级信息的应用程序，如视频编辑[38]和旋转摄影[37]，这种详细表示更为理想。可以理解，与简单的生成边界框相比，生成像素级估计需要更多的计算资源。结果，VOS方法传统上很慢，通常每帧需要几秒钟的时间（例如[55、50、39、1]）。最近，人们对更快的方法产生了兴趣[59、36、57、8、7、22、21]。但是，即使最快的仍然无法实时运行。

在本文中，我们旨在通过提出SiamMask（一种可用于解决这两个问题的简单多任务学习方法）来缩小任意对象跟踪与VOS之间的差距。基于完全卷积的暹罗网络[3]的快速跟踪方法的成功，以及对数百万对视频帧（例如[28、63、15、60]）的离线训练，以及基于YouTube- VOS [58]，一个具有逐像素注释的大型视频数据集。我们旨在保留这些方法的离线可训练性和在线速度，同时显着改善其对目标对象的表示，这仅限于简单的轴对齐边界框。

为了实现此目标，我们同时在三个任务上训练了一个暹罗（fully convolutional Siamese）网络，每个任务都对应一种不同的策略，以在新框架中建立目标对象与候选区域之间的对应关系。与Bertinetto等人的全卷积方法一样。 [3]，一项任务是学习衡量目标之间的相似度对象和多个候选对象以滑动窗口的方式输出。输出是一个密集的响应图，仅指示对象的位置，而没有提供有关其空间范围的任何信息。为了完善此信息，我们同时学习了另外两个任务：使用区域提议网络[46，28]进行边界框回归和分类不可知的二进制分割[43]。值得注意的是，二进制标签仅在离线培训期间才需要计算分割损失（segmentation loss ），而在细分/跟踪过程中则不需要在线。在我们提出的体系结构中，每个任务都由一个不同的分支来代表，该分支与共享的CNN背道而驰，将三个输出相加，得到最终的损失。

经过培训后，SiamMask仅依靠单个边界框初始化，无需更新即可在线运行，并以每秒55帧的速度生成对象分割蒙版和旋转的边界框。 SiamMask尽管简单易行，但速度很快，它针对实时对象跟踪问题在VOT-2018上建立了新的技术水平。而且，相同的方法比最近在DAVIS-2016和DAVIS-2017上采用半监督VOS的方法更好，同时速度也是最快的。通过简单的边界框初始化（而不是掩码）即可获得此结果，而无需采用VOS方法经常使用的昂贵技术，例如微调[35，39，1，53]，数据增强[23，30]和光流[50、1、39、30、8]。

本文的其余部分组织如下。第2节简要概述了视觉对象跟踪和半监督VOS中最相关的现有工作；第三节描述我们的方法；第4节以四个基准对它进行了评估，并举例说明了一些烧蚀研究。第五部分总结全文。

2. Related Work

在本节中，我们简要介绍了针对本文所解决的两个问题的最具代表性的技术。视觉对象跟踪。可以说，直到最近，用于跟踪任意对象的最流行的范例是仅根据视频第一帧中提供的ground-truth信息在线上训练判别式分类器（然后在线进行更新）。关联滤波器（CF）是一种可以区分任意目标的模板及其2D转换的简单算法，由于Bolme等人的开创性工作，它成为了一种特别快速有效的逐次跟踪跟踪策略。 [4]。通过采用多通道公式[24、20]，空间约束[25、13、33、29]和深层特征（例如[12、51]），基于相关滤波器的跟踪器的性能得到了显着改善。

最近，一种完全不同的方法被引入[3,19,49]。这些方法不是在线学习分离分类器，而是离线训练视频帧对的相似函数。在测试时，这个函数可以简单地在一个新的视频上执行，每帧一次。特别是，全卷积Siamese方法[3]的演化利用了区域建议[28]、难例挖掘[63]、集合[15]和内存网络[60]，这极大地改进了跟踪性能。

大多数现代跟踪器，包括上面提到的所有跟踪器，都使用一个矩形包围框来初始化目标并在随后的帧中估计它的位置。尽管简单的矩形很方便，但它常常不能正确地表示对象，如图1中的示例所示。这促使我们提出了一个跟踪器，能够产生二进制分割掩码，而仍然只依赖用一个边界框初始化。
SiamMask论文翻译
有趣的是，在过去，跟踪器生成目标对象的粗糙二进制掩码是很常见的。[11，42])。然而，据我们所知，最近唯一的跟踪器，像我们一样，能够在线操作，并从边界框初始化开始生成一个二进制掩码，这是Yeo等人基于超像素的方法。[61]。然而，它的最快版本速度是4帧每秒(fps)，比我们的方案要慢得多。此外，当使用CNN feature时，其速度会下降60倍，下降到0.1 fps以下。最后，它在现代跟踪或VOS基准上没有表现出竞争力。与我们相似，Perazzi等人的方法[39]和Ci等[10]也可以从一个矩形开始
输出每帧的掩码。但是，它们需要在测试时进行微调，这使它们变慢。

**半监督视频对象分割。**任意对象跟踪的基准(例如[48,26,56])都是假设跟踪器以连续的方式接收输入帧，通常用在线或因果属性来指代这方面[26]。此外，方法往往集中在实现速度超过典型的视频帧率[27]。相反，半监督VOS算法传统上更关注目标的准确表示[38,40]。

为了利用视频帧之间的一致性，多种方法通过图标记方法（例如[55、41、50、36、1]）将第一帧的监督分割掩码传播到时间相邻的掩码。特别是，鲍等人 [1]最近提出了一种非常精确的方法，该方法利用了时空MRF，其中时间依赖性通过光流建模，而空间依赖性通过CNN表示。

另一种流行的策略是独立处理视频帧(例如[35,39,53])，这与大多数跟踪方法类似。例如，在OSVOS-S Maninis等人的[35]不利用任何时间信息。他们依赖于一个经过预处理的全卷积网络进行分类，然后在测试时，使用第一帧提供的ground-truth掩码对其进行微调。相反，MaskTrack[39]是从零开始对单个图像进行训练，但它确实利用了测试时的某种形式的时间性，使用最新的掩模预测和光流作为额外的网络输入。

为了达到尽可能高的精度，在测试时VOS方法通常采用计算密集型技术，如微调[35,39,1,53]、数据增强[23,30]和光流[50,1,39,30,8]。因此，这些方法的特点通常是低帧率和无法在线操作。例如，对于只有几秒钟长的视频，像DAVIS的方法需要几分钟[39,9]甚至几个小时[50,1]是很常见的。

最近，VOS社区对更快的方法越来越感兴趣[36、57、8、7、22、21]。据我们所知，最快的方法是Yang等人的[59]和Wug等人的[57]。前者使用元网络“调制器”在测试期间快速适应分段网络的参数，而后者不使用任何微调，采用经过多阶段训练的码译码器Siamese架构。这两种方法的运行速度都低于每秒10帧，而我们的速度是它的六倍多，并且只依赖于边界框的初始化。

3. Methodology（方法学）

为了实现在线的可操作性和快速的速度，我们采用了全卷积式的Siamese框架[3]。此外，为了说明我们的方法不依赖于作为起点使用的特定全卷积方法(例如[3,28,63,60,16])，我们以流行的SiamFC[3]和SiamRPN[28]作为两个代表性的例子。我们首先在3.1节中介绍它们，然后在3.2节中描述我们的方法。

3.1. Fully-convolutional Siamese networks

SiamFC. Bertinetto等人的[3]提出使用离线训练的全卷积Siamese网络作为跟踪系统的基本构建块，该网络将样本图像z与(较大的)搜索图像x进行比较，以获得密集的响应图。z和x分别是以目标物为中心的w×h的裁剪量和以目标最后估计位置为中心的较大的裁剪量。两个输入是一样处理的CNN fθ,产生两个特征图阐述:
$g_{\theta}(z, x)=f_{\theta}(z) \star f_{\theta}(x)$
在本文中，我们将响应映射(式1左侧)中的每个空间元素称为候选窗口(行)的响应。例如,gθn (z;x)编码之间的相似性examplar z和n个候选人在x窗口文件。SiamFC,目标是为响应的最大值的目标位置映射到对应搜索区域x。相反,为了让每一行编码丰富目标对象的信息,我们将简单的互相关的Eq。1替换为深度方面交互作用[2]和产生多通道响应图。SiamFC离线训练数百万帧具有逻辑损耗的视频帧[3，第2.2节]，我们将其称为Lsim。

SiamRPN. Li等人利用区域建议网络(RPN)[46,14]大大提高了SiamFC的性能，该区域建议网络允许使用可变长径比的边界框来估计目标位置。特别地，在SiamRPN中，每一行编码一组k个锚盒建议和相应的对象/背景分数。因此，SiamRPN输出与分类分数并行的框预测。利用光滑L1和交叉熵损失对两个输出支路进行训练[28,3.2]。在下面，我们将它们分别称为Lbox和Lscore。