摘要
跟踪任务中提高精度的关键是如何处理好(旋转的)边界框bbox,这可以通过识别目标物体的mask来实现。而目前的分割算法计算复杂度通常较高,难以做到实时性。因此,为了解决上述问题,本文提出了一个结合目标跟踪和目标分割的统一框架SiamMask,输入要跟踪目标的bbox就可以同时实现目标跟踪和目标分割,并保证实时性。
背景
作者指出,随着跟踪精度的不断提升,用于评估算法准确性的数据集难度也在提升,从坐标轴对称的bbox来标定跟踪对象,到使用旋转的bbox来贴近目标运动状态。旋转的bbox可以通过目标分割来实现。
作者进一步指出,目前的分割算法大多数做不到实时性,且需要在第一帧给定目标的mask,这两方面都实际场景中应用成本太高。
贡献
因此,为了解决上述问题,本文提出一个结合目标跟踪和目标分割的统一框架SiamMask,框架的初始化输入与跟踪问题一致,都是要跟踪目标的bbox,但可以同时得到在后续帧的跟踪情况(bbox)和每一帧目标分割结果(mask)。
如下图所示,该框架分别基于SiamFC网络和SiamRPN网络,加入一个目标分割分支,训练过程中的损失函数也相应地增加一个二元分割项(该项通过一个两层1×1的卷积层实现,从而使得Row中每个位置的信息都可以得到有效的利用,便于识别目标和相似物)。图中的*代表的是depth-wise cross-correlation,与baseline使用的simple cross-correlation不同,前者的一个卷积核独立负责一个特征通道,最终卷积得到的feature map数量与输入的通道数一致;后者的一个卷积核同时操作输入特征的每一个通道,并对每一通道的卷积结果进行加权相加。
参考
[1]论文作者知乎链接:https://zhuanlan.zhihu.com/p/58154634