GradNet: Gradient-Guided Network for Visual Object Tracking

文章目录

摘要
背景
贡献
本文方法
参考

摘要

本文针对Siamese网络系列算法在跟踪过程中不更新模板，在目标发生巨大形变或背景干扰下，无法及时捕捉目标外观变化的问题进行改进，旨在在线更新Siamese网络的模板。具体地，本文提出一个基于梯度信息的跟踪网络，通过前向传播和反向传播来更新当前帧的模板，并为了避免过拟合，利用多个视频序列的视频帧进行模板的训练，使得模板更具泛化性。在文中作者指出，这是第一篇将梯度信息应用到模板更新的paper。

背景

通常，单目标跟踪是指给给定第一帧任意一个目标状态（目标位置和尺度大小）的前提，预测该目标在后续帧的运动轨迹。在跟踪领域，Siamese系列算法是一大主流算法。Siamese算法通过计算模板图片和当前跟踪图片的cross-correlation来评估二者的相似性，相似性最高的区域作为当前跟踪的目标位置。这里的模板是第一帧标定的跟踪目标，在后续跟踪中不进行更新，这一方面确保了模板的可靠性，一方面在目标发生巨大形变或者面临背景干扰等挑战，与第一帧标定的目标从外观上已经无法准确匹配时，就可能发生跟踪漂移。

贡献

那么，本文的出发点就是利用梯度信息来自适应更新模板，从而确保网络通过cross-correlation计算相似性来准确跟踪目标。此外，本文还提出一个模板泛化方法，确保利用梯度信息而不是模板的外观信息来进行模板更新，避免过拟合。

本文方法

GradNet: Gradient-Guided Network for Visual Object Tracking
本文的网络结构如上图所示，上分支是模板分支，下分支是搜索分支。在模板分支进行深度特征提取，将深度特征经过子网络U1(.)得到模板β，与搜索区域的深度特征进行cross-correlation计算，计算loss function并通过反向传播计算f2(Z)的梯度，将梯度信息与特征信息相加实现模板β的更新，再将此时的模板β进行第二次前向传播，得到最终的自适应模板与当前帧的深度特征进行相似性计算。总的来说，本文的网络通过两次前向传播和一次反向传播实现梯度信息的学习。

作者进一步指出，单纯使用一个视频序列进行模板的训练不具有泛化性，并使得训练的模板更关注于模板帧与搜索帧的相似性，对梯度信息利用率不够，因此，作者提出利用多个视频序列进行泛化性模板的训练。

参考

[1] https://blog.csdn.net/qq_34914551/article/details/103075431