论文阅读：Video Object Segmentation and Tracking A Survey

论文名字	Video Object Segmentation and Tracking A Survey
来源	arXiv 论文地址：http://arxiv.org/abs/1904.09172?context=cs.CV
年份	2019.4.26
作者	RUI YAO, GUOSHENG LIN, SHIXIONG XIA, JIAQI ZHAO, YONG ZHOU
核心点	对现有的VOST算法进行分类，对不同方法的技术特征概述，总结相关视频数据的数据集的特征和提供多种评估方法。
阅读日期	2020.11.2
影响因子
内容总结
文章主要解决的问题及解决方案：对现有的VOST算法进行分类，对不同方法的技术特征概述，总结相关视频数据的数据集的特征和提供多种评估方法。文章的主要工作： ①如图1所示，在视频对象分割和跟踪中提供了一种分层分类的现有方法。我们大致将方法分为5类。然后，对于每个类别，不同的方法被进一步分类。 ②我们对无监督的VOS、半监督的VOS、交互式VOS和基于分割的跟踪中不同方法的技术特征进行了详细的讨论和概述。 ③总结相关视频数据集的特点，提供多种评价指标。文章内容： ①无监督VOS和交互VOS代表着两个极端，前者没有任何输入，仅通过自上而下的过程产生连贯的时空区域；后者使用强监督交互方法，要求第一帧的像素级精确分割。半监督VOS：要求手动标注定义什么是前景对象，任何自动分割到序列的其余帧。 ②介绍VOST： [36]VOST方法被广泛应用于利用多个视频中的视觉对象的视频摘要 [138]提供一个帮助视频检索或网页浏览的有用工具 [85]VOST被用于视频编码标准MPEG-4，以实现基于内容特征和高编码效率 [37]提供的基于内容的表示将视频镜头编码为在补偿运动对象之后获得静止背景马赛克。 [183]VOST可以估计非刚性目标，以实现精确的跟踪定位和掩模描述，这可以识别其他运动指令。 ③VOST的问题： 1）哪些图像特征适合VOST？ 2）哪些对象表示（即点、超像素、patch、对象）适合VOS？ 3）哪些图像特征适合VOST？ 4）如何模拟物体在VOST的运动 5）如何对基于CNN的VOS方法进行预处理和后处理 6）哪些数据集适合评价VOST，它们的特点是什么？ ④VOST的五个分类方向：无监督的VOS、半监督的VOS、交互式VOS、弱监督的VOS以及基于分割的跟踪方法么。VOST方法如图1所示。 ⑤无监督方法： [100]第一个使用互补卷积神经网络生成显著性对象 [43,159,160,166]双分支CNN分割视频对象。 [159]MP-Net取视频序列中连续两个帧作为输入，产生每像素运动标签。 [160]做了一些改进。 [43]提出一个具有外观和光流运动的双流网络。 [166]SfM-Net结合了两个流运动和结构，通过可区分的渲染来学习对象masks和没有masks注释的运动模型。无监督的方法计算耗费大。 ⑥半监督方法：半监督是在第一帧的时候给masks 半监督分为两类：spatio-temporal graph和基于CNN的半监督VOS Motion-based methods.： [107][110]卷积神经网络在静态图像分割上的成功。 [32,69,78,102]使用光流训练网络。使用光流作为线索来随着时间跟踪像素以建立时间相干性。 [32]SegFlow[192]MoNet[112]PReMVOS[83]LucidTrack[102]VS-ReID [41,74]FlowNet [78]提出一种时间双向网络，通过光流作为附加特征，以自适应方式传播视频帧 [10]利用光流建立时间相关性，在基于CNN的时间和空间MRF [69]利用光流上的活动轮廓分割运动目标。 [70,102]为捕获时间相干性，一些方法使用递归神经网络（RNN）来用光流建立masks传播 [125]使用CNN方法，根据前一帧的估计当前帧的mask。 Detection-based methods： [22]介绍一种在线训练过程，通过一个FCN对静态图像进行一次视频对象分割（OSVOS），该过程在目标视频的第一帧对一个预处理卷积神经网络进行fine-tuned。 [113]它们用明确的语义信息扩展了对象的模型，并极大地改进了结果 [167]提出了在线自适应视频对象分割，网络在线微调以适应外观的变化。 [30]提出了一种基于每帧中的成对相似性在空间上传播粗略分割mask的方法。 [147]提出一种像素级匹配网络，基于两个对象单元之间的像素级相似性来区分对象区域和背景， [29]提出一种用于视频对象分割的嵌入空间中的像素检索问题。 [72]视频匹配方法将提取的特征匹配到提供的模板，而不需要记忆对象的外观。 Fine-tuning： [22,125,167]网络使用在线fine-tuned，使用视频测试视频的第一帧来记忆目标对象的外观，导致性能的提升。上述方法不适用于外观有大变化的情况，[10,22,69,83,113,192]由视点的剧烈变化引起的，fine-tuned模型很难推广到新的物体外观。 [118,167]使用在线update the network的方法 Computational speed：在线fine-tuned耗费资源，[29,31,72,197]工作时不需要在线测试时间内进行计算上的昂贵的fine-tuned。 Post-processing：后处理通常用于改善轮廓，如边界捕捉[22，113] [30，147]参考频率感知滤波器 [10，125]中的密集MRF或CRF [91]。 [22]OSVOS执行边界捕捉，将前景遮罩捕捉到精确的轮廓。 [147]对得到的分割掩模进行加权中值滤波。 [102]还考虑了链接轨迹的后处理步骤。 [10，83，192]一些VOS框架 Data augmentation.： [83]提出一种用于在线学习的大量数据扩充的策略。 [32,78,112,144]在从第一帧GT生成的一大组增强图像上对训练网络进行微调。 ⑦交互式视频对象分割： [13,23,29,114]交互式分割网络 [22]基于OSVOS技术的深度交互式图像和视频对象分割方法。 ⑧弱监督视频对象分割： [170]在弱监督语义视频对象分割的目标域中将CNN的识别和表示能力与未标记数据的内在结构相结合，以提高推理性能。 [84]使用自然语言表达式来识别视频中的目标对象 ⑨基于分割的跟踪方法： [174,207]使用CNN框架来执行视觉对象跟踪和半监督视频对象分割。 [174]提出一种Siamese network估计二值分割mask，bounding box，和相应的对象/背景分数 [207]建立一个双分支网络，即外观网络和轮廓网络。跟踪输出和分割结果相互补充。 ⑩数据集和评估方法：数据集：表7 评估方法： [126]对于视频对象分割，标准评估度量具有三个度量，即分割的空间精度、轮廓相似性的一致性和时间稳定性。三个参数：1）区域相似性 IoU；2）精密度Pc和召回率Rc，F-measure；3）时间稳定性 [187][92]广泛应用于单目跟踪算法附录：图1 VOST方法 Table1 Summary of some major unsupervised VOS methods. #: number of objects, S: single, M: multiple.（仅截取CNN方法） Table 3. Summary of convolutional neural network based semi-supervised video object segmentation methods. M/D: motion-based and detection-based methods. Post-pro.: post-processing. Data aug.: data augmentation. Table 4. Summary of interactive video object segmentation methods. #: number of objects, S: single, M: multiple. Table 6. Summary of joint segmentation-based tracking methods. #: number of objects, S: single, M: multiple. Box and Mask: the bounding box and mask of the object Table 7. Brief illustration of datasets that are used in the evaluation of the video object segmentation and tracking methods. V #: number of video. C #: number of categories. O #: number of objects. A #: annotated frames. U, S, I, W, T: unsupervised VOS, semi-supervised VOS, interactive VOS, weakly supervised VOS, and segmentation-based tracking methods. Object pro.: object property, T. of methods: type of methods.