论文笔记Fast Online Object Tracking and Segmentation: A Unifying Approach
1. 论文标题及来源
Fast Online Object Tracking and Segmentation: A Unifying Approach, CVPR, 2019
下载地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Fast_Online_Object_Tracking_and_Segmentation_A_Unifying_Approach_CVPR_2019_paper.pdf
2. 拟解决问题
如何同时进行跟踪和语义分割并且保持实时性
3. 解决方法
3.1 算法流程
该网络有两个变体,左边使用RPN思想得到待跟踪目标的得分和bounding box偏移,右边使用SiamFC思想得到待跟踪目标的得分。
a. 将target和search region输入到骨干网络ResNet-50中提取特征
b. 将两个特征进行互相关操作得到响应图
c. 将响应图分别输入到3个分支中,分别进行mask标记,回归的bounding box和前背景得分
d. 得到结果
3.2 实例分割分支
作者发现直接预测mask时,效果较差,所以使用refine module,并且融合多层特征提高mask效果
a.将响应图上的每个候选区域都进行反卷积,形成15 * 15 * 32的特征
b. 将反卷积后的特征与ResNet50中的conv3特征通过refine module融合特征
c. 将融合特征与ResNet50中的conv2特征通过refine module融合形成新的融合特征
d. 同理融合conv1和新的融合特征
e. 通过3*3卷积,然后使用sigmoid**得到mask
3.3 refine module
refine module的网络结构如上所示,它的流程比较简单,此处不再描述
3.4 主要公式说明
mask损失函数:
上述损失函数是mask分支的损失函数。n表示候选区域的数量,表示第n个候选区域的标签,w和h表示mask的宽和长。表示第n个候选区域的mask中每个像素点的标签,表示第n个候选区域的mask中每个像素点的预测值
总损失函数:
第一个是两个分支的版本,第二个是3个分支的版本。它的损失与SiamFC和SiamRPN中的损失计算方式一样,此处作者取
4. 实验结果
4.1 VOT2016 & VOT2018
4.2 DAVIS2016
4.3 DAVIS2017
4.4 YouTuBe-VOS
4.5 消融实验
5. 总结
该算法首次将目标跟踪与实例分割相结合,它使用ResNet作为骨干网络提取特征,然后获得响应图,通过三个分支分别预测mask,bounding box回归和得分,为了提高mask效果,作者通过上采样和下采样融合多层特征。它在VOT2016和VOT2018的实验结果如下