本文解决的主要问题是,大量视频没有外加的标签信息,那么该如何有效利用这些视频来实现无监督的目标跟踪。
作者认为如果一个图像目标追踪器是鲁棒的,那它不仅能做到前向预测目标位置,也应该可以做到反向预测(根据后续帧来反向预测第一帧里的目标位置)。于是作者就提出了一种前向预测,反向验证的无监督学习方法。第一帧给定目标框,开始向后续帧预测目标位置;再将后续的帧的预测结果作为开始,向前预测目标位置,最终应使反推回来的预测框与第一帧的目标框一致。但作者也指出,这种结构不够稳定,常常因为一些错误信息,反推的预测结果会和第一帧预测框一致。而且当目标和其他物体高度重合时,预测的效果也会受到影响。并由此提出了多帧验证方法和损失敏感的损失函数。
全文的主要贡献在于:
- 提出了一种建立于Siamese correlation filter的无监督跟踪方法,通过前向后向跟踪来进行学习。
- 提出了多帧验证方法和损失敏感的损失函数来提升性能。
- 表明无监督跟踪方法很有潜力,甚至能达到和监督跟踪方法相当的准确度。
无监督训练的动机如图1(a)所示。训练框架是在Siamese DCF网络上构建的,如图1(b)所示。DCF的思想是给出模板patch X和真实patch Y,可以寻找一个映射W,使得岭回归结果最小:上式可以在傅里叶变换域上快速求解。
图1
在图1(b)的前向跟踪阶段,给定相邻两帧P1以及P2,先在P1中随机初始化一个初始标签T(红框表示),是模板T对应的高斯响应,峰值在框的中心。根据上述的岭回归过程可以求解,也就是Correlation Filter部分。利用Correlation Filter和P2进行卷积,可以得到P2中对应目标的响应图(蓝框表示)。根据响应图构建一个中心在响应图最大值处的伪标签。在反向跟踪阶段过程与前向跟踪相似,可以得到在P1中的预测响应图。最终通过训练减小响应图与的一致性损失,从而更新特征提取部分CNN和Correlation Filter的权值。一致性损失计算如下:
这种损失的计算并未考虑到中间结果,实际上很有可能前向跟踪结果与目标脱离很远,但反向跟踪后反而结果回到了初始目标位置。为了应对这个问题,本文增加了前向预测和反向预测的帧数,从而放大偏离程度。如图2所示。最终的计算误差如下。其中是新的预测热图。
图2 单帧检验与多帧检验
由于初始标签是随机框选出来的,引入了大量噪声和背景信息。
对于噪声图像来说,最终得到的一致性损失通常很高,会影响网络的收敛,因此,本文对引起前10%的损失的样本排除出训练过程,增加了一个丢弃参数Ai drop。
而对于背景来说,目标常常是不动的,因此本文根据目标的运动快慢,增加了一个损失的权重参数。计算公式如下:
并做归一化处理。相应的参数越大,代表该样本对于损失越重要。
最终的训练损失为:
可以从给出的实验结果看出,该无监督网络对于目标追踪问题有很好的效果,甚至超过了部分现有的监督算法。
但是本文也有一部分缺点:
1.在光照变化,遮挡,快速运动的场景下效果不好。主要是因为这些场景使得图像帧间差距较大,无监督的特征学习可能会失去目标信息,没有办法学习到鲁棒特征表示。
2.由于整个框架建立在前向和反向的追踪上,因此计算效率可能会成为潜在的瓶颈。