论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach

1. 论文标题及来源
2. 拟解决问题
3. 解决方法

3.1 算法流程
3.2 实例分割分支
3.3 refine module
3.4 主要公式说明

4. 实验结果

4.1 VOT2016 & VOT2018
4.2 DAVIS2016
4.3 DAVIS2017
4.4 YouTuBe-VOS
4.5 消融实验

5. 总结

1. 论文标题及来源

Fast Online Object Tracking and Segmentation: A Unifying Approach, CVPR, 2019
下载地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Fast_Online_Object_Tracking_and_Segmentation_A_Unifying_Approach_CVPR_2019_paper.pdf

2. 拟解决问题

如何同时进行跟踪和语义分割并且保持实时性

3. 解决方法

3.1 算法流程

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
该网络有两个变体，左边使用RPN思想得到待跟踪目标的得分和bounding box偏移，右边使用SiamFC思想得到待跟踪目标的得分。
a. 将target和search region输入到骨干网络ResNet-50中提取特征
b. 将两个特征进行互相关操作得到响应图
c. 将响应图分别输入到3个分支中，分别进行mask标记，回归的bounding box和前背景得分
d. 得到结果

3.2 实例分割分支

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
作者发现直接预测mask时，效果较差，所以使用refine module，并且融合多层特征提高mask效果
a.将响应图上的每个候选区域都进行反卷积，形成15 * 15 * 32的特征
b. 将反卷积后的特征与ResNet50中的conv3特征通过refine module融合特征
c. 将融合特征与ResNet50中的conv2特征通过refine module融合形成新的融合特征
d. 同理融合conv1和新的融合特征
e. 通过3*3卷积，然后使用sigmoid**得到mask

3.3 refine module

论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
refine module的网络结构如上所示，它的流程比较简单，此处不再描述

3.4 主要公式说明

mask损失函数：
论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
上述损失函数是mask分支的损失函数。n表示候选区域的数量， $y_n \in \{-1, +1\}$ 表示第n个候选区域的标签，w和h表示mask的宽和长。 $c^{i j}_n \in \{-1, +1\}$ 表示第n个候选区域的mask中每个像素点的标签， $m^{i j}_n \in \{-1, +1\}$ 表示第n个候选区域的mask中每个像素点的预测值

总损失函数：
论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
第一个是两个分支的版本，第二个是3个分支的版本。它的损失与SiamFC和SiamRPN中的损失计算方式一样，此处作者取 $\lambda_1 = 32, \lambda_2 = \lambda_3 = 1$