摘要
本文针对Siamese网络系列算法在跟踪过程中不更新模板,在目标发生巨大形变或背景干扰下,无法及时捕捉目标外观变化的问题进行改进,旨在在线更新Siamese网络的模板。具体地,本文提出一个基于梯度信息的跟踪网络,通过前向传播和反向传播来更新当前帧的模板,并为了避免过拟合,利用多个视频序列的视频帧进行模板的训练,使得模板更具泛化性。在文中作者指出,这是第一篇将梯度信息应用到模板更新的paper。
背景
通常,单目标跟踪是指给给定第一帧任意一个目标状态(目标位置和尺度大小)的前提,预测该目标在后续帧的运动轨迹。在跟踪领域,Siamese系列算法是一大主流算法。Siamese算法通过计算模板图片和当前跟踪图片的cross-correlation来评估二者的相似性,相似性最高的区域作为当前跟踪的目标位置。这里的模板是第一帧标定的跟踪目标,在后续跟踪中不进行更新,这一方面确保了模板的可靠性,一方面在目标发生巨大形变或者面临背景干扰等挑战,与第一帧标定的目标从外观上已经无法准确匹配时,就可能发生跟踪漂移。
贡献
那么,本文的出发点就是利用梯度信息来自适应更新模板,从而确保网络通过cross-correlation计算相似性来准确跟踪目标。此外,本文还提出一个模板泛化方法,确保利用梯度信息而不是模板的外观信息来进行模板更新,避免过拟合。
本文方法
本文的网络结构如上图所示,上分支是模板分支,下分支是搜索分支。在模板分支进行深度特征提取,将深度特征经过子网络U1(.)得到模板β,与搜索区域的深度特征进行cross-correlation计算,计算loss function并通过反向传播计算f2(Z)的梯度,将梯度信息与特征信息相加实现模板β的更新,再将此时的模板β进行第二次前向传播,得到最终的自适应模板与当前帧的深度特征进行相似性计算。总的来说,本文的网络通过两次前向传播和一次反向传播实现梯度信息的学习。
作者进一步指出,单纯使用一个视频序列进行模板的训练不具有泛化性,并使得训练的模板更关注于模板帧与搜索帧的相似性,对梯度信息利用率不够,因此,作者提出利用多个视频序列进行泛化性模板的训练。
参考
[1] https://blog.csdn.net/qq_34914551/article/details/103075431