Unsupervised DeepTracking 论文笔记

本文解决的主要问题是，大量视频没有外加的标签信息，那么该如何有效利用这些视频来实现无监督的目标跟踪。

作者认为如果一个图像目标追踪器是鲁棒的，那它不仅能做到前向预测目标位置，也应该可以做到反向预测（根据后续帧来反向预测第一帧里的目标位置）。于是作者就提出了一种前向预测，反向验证的无监督学习方法。第一帧给定目标框，开始向后续帧预测目标位置；再将后续的帧的预测结果作为开始，向前预测目标位置，最终应使反推回来的预测框与第一帧的目标框一致。但作者也指出，这种结构不够稳定，常常因为一些错误信息，反推的预测结果会和第一帧预测框一致。而且当目标和其他物体高度重合时，预测的效果也会受到影响。并由此提出了多帧验证方法和损失敏感的损失函数。

全文的主要贡献在于：

提出了一种建立于Siamese correlation filter的无监督跟踪方法，通过前向后向跟踪来进行学习。
提出了多帧验证方法和损失敏感的损失函数来提升性能。
表明无监督跟踪方法很有潜力，甚至能达到和监督跟踪方法相当的准确度。

无监督训练的动机如图1(a)所示。训练框架是在Siamese DCF网络上构建的，如图1(b)所示。DCF的思想是给出模板patch X和真实patch Y，可以寻找一个映射W，使得岭回归结果最小：
Unsupervised DeepTracking 论文笔记上式可以在傅里叶变换域上快速求解。

Unsupervised DeepTracking 论文笔记

图1

在图1(b)的前向跟踪阶段，给定相邻两帧P1以及P2，先在P1中随机初始化一个初始标签T（红框表示）， $Y_T$ 是模板T对应的高斯响应，峰值在框的中心。根据上述的岭回归过程可以求解 $W_T$ ，也就是Correlation Filter部分。利用Correlation Filter和P2进行卷积，可以得到P2中对应目标的响应图 $R_S$ （蓝框表示）。根据响应图构建一个中心在响应图最大值处的伪标签 $Y_S$ 。在反向跟踪阶段过程与前向跟踪相似，可以得到在P1中的预测响应图 $R_T$ 。最终通过训练减小响应图 $Y_T$ 与 $R_T$ 的一致性损失，从而更新特征提取部分CNN和Correlation Filter的权值。一致性损失计算如下： Unsupervised DeepTracking 论文笔记

这种损失的计算并未考虑到中间结果，实际上很有可能前向跟踪结果与目标脱离很远，但反向跟踪后反而结果回到了初始目标位置。为了应对这个问题，本文增加了前向预测和反向预测的帧数，从而放大偏离程度。如图2所示。最终的计算误差如下。其中 $\widetilde{R}_T$ 是新的预测热图。
Unsupervised DeepTracking 论文笔记

Unsupervised DeepTracking 论文笔记
图2 单帧检验与多帧检验

由于初始标签是随机框选出来的，引入了大量噪声和背景信息。

对于噪声图像来说，最终得到的一致性损失通常很高，会影响网络的收敛，因此，本文对引起前10%的损失的样本排除出训练过程，增加了一个丢弃参数Ai drop。

而对于背景来说，目标常常是不动的，因此本文根据目标的运动快慢，增加了一个损失的权重参数。计算公式如下：
Unsupervised DeepTracking 论文笔记

并做归一化处理。相应的参数越大，代表该样本对于损失越重要。
Unsupervised DeepTracking 论文笔记

最终的训练损失为：
Unsupervised DeepTracking 论文笔记

可以从给出的实验结果看出，该无监督网络对于目标追踪问题有很好的效果，甚至超过了部分现有的监督算法。
Unsupervised DeepTracking 论文笔记

但是本文也有一部分缺点：
1.在光照变化，遮挡，快速运动的场景下效果不好。主要是因为这些场景使得图像帧间差距较大，无监督的特征学习可能会失去目标信息，没有办法学习到鲁棒特征表示。
2.由于整个框架建立在前向和反向的追踪上，因此计算效率可能会成为潜在的瓶颈。