1. 论文标题及来源

Fast Online Object Tracking and Segmentation: A Unifying Approach, CVPR, 2019
下载地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Fast_Online_Object_Tracking_and_Segmentation_A_Unifying_Approach_CVPR_2019_paper.pdf

2. 拟解决问题

如何同时进行跟踪和语义分割并且保持实时性

3. 解决方法

3.1 算法流程

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
该网络有两个变体,左边使用RPN思想得到待跟踪目标的得分和bounding box偏移,右边使用SiamFC思想得到待跟踪目标的得分。
a. 将target和search region输入到骨干网络ResNet-50中提取特征
b. 将两个特征进行互相关操作得到响应图
c. 将响应图分别输入到3个分支中,分别进行mask标记,回归的bounding box和前背景得分
d. 得到结果

3.2 实例分割分支

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
作者发现直接预测mask时,效果较差,所以使用refine module,并且融合多层特征提高mask效果
a.将响应图上的每个候选区域都进行反卷积,形成15 * 15 * 32的特征
b. 将反卷积后的特征与ResNet50中的conv3特征通过refine module融合特征
c. 将融合特征与ResNet50中的conv2特征通过refine module融合形成新的融合特征
d. 同理融合conv1和新的融合特征
e. 通过3*3卷积,然后使用sigmoid**得到mask

3.3 refine module

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
refine module的网络结构如上所示,它的流程比较简单,此处不再描述

3.4 主要公式说明

mask损失函数:
论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
上述损失函数是mask分支的损失函数。n表示候选区域的数量,yn{1,+1}y_n \in \{-1, +1\}表示第n个候选区域的标签,w和h表示mask的宽和长。cnij{1,+1}c^{i j}_n \in \{-1, +1\}表示第n个候选区域的mask中每个像素点的标签,mnij{1,+1}m^{i j}_n \in \{-1, +1\}表示第n个候选区域的mask中每个像素点的预测值

总损失函数:
论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
第一个是两个分支的版本,第二个是3个分支的版本。它的损失与SiamFC和SiamRPN中的损失计算方式一样,此处作者取λ1=32,λ2=λ3=1\lambda_1 = 32, \lambda_2 = \lambda_3 = 1

4. 实验结果

4.1 VOT2016 & VOT2018

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach

4.2 DAVIS2016

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach

4.3 DAVIS2017

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach

4.4 YouTuBe-VOS

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach

4.5 消融实验

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach

5. 总结

该算法首次将目标跟踪与实例分割相结合,它使用ResNet作为骨干网络提取特征,然后获得响应图,通过三个分支分别预测mask,bounding box回归和得分,为了提高mask效果,作者通过上采样和下采样融合多层特征。它在VOT2016和VOT2018的实验结果如下
论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach

相关文章: