Summary - Unsupervised Video Object Segmentation using Online Mask Selection and Space-time Memory Networks

S. Garg, V. Goel, S. Kumar
The 2020 DAVIS Challenge on Video Object Segmentation - CVPR Workshops, 2020
DAVIS-Unsupervised-Challenge-1st-Team

[paper]

背景

半监督 VOS 的主要困难:

  • Matching / Re-Identification
  • Online Fine-tune
  • Occlusion, Shape Variation, Motion Blur, Object Move-in/-out

无监督 VOS 额外增加了的挑战:

  • 如何确定要分割的物体实例

无监督 VOS 可以先对第一帧进行实例分割 (proposal),再使用半监督 VOS 的方法完成。但这样不能达到最优性能,因为第一帧生成的 mask 质量不一定好,后面基于这个 mask 的半监督 VOS 方法预测出来的结果性能受限。

在本文中,作者在半监督 VOS 方法 STM 的基础上构建了模型,即使用 Proposal Generation + STM 的方法。

很有可能在第一帧中没有检测到所有的对象,因此作者修改了方法来添加和跟踪新添加的对象。作者注意到,即使在一帧中检测到一个对象,传播对象的 mask 质量有时也会显著降低。由于STM的输出依赖于先前的掩模,一旦 mask 质量下降,很难恢复好的 mask。

模型结构

Summary - Unsupervised Video Object Segmentation using Online Mask Selection and STM

文中的方法可以分成以下步骤:

1. 使用 Mask-RCNN 为视频中的所有帧生成 mask (generate object proposals MM for each frame)。限定每帧生成的 object proposals 数量不超过 10 个。对于每一帧,选择置信度分数最高的 10 个 masks,并移除置信度低于 0.1 的 masks。

2. 利用 Mask-RCNN 生成的第一帧 mask 来初始化 STM,并生成 object masks SS

3. Associate MM with SS based on IOU。

若某些 objects 能够匹配上 (IOU > 0.5),则认为它们是旧的 objects,并将 SS 的 id 赋到 MM 上;若某些 objects 不能匹配上,则认为这些 objects 是新出现的,在后续步骤中加上。

4. 使用两个 Criterion,分别选择出更好的 mask。

Criterion 1:使用神经网络来对比较上面生成的两个 masks,并根据质量好坏为他们打上分数,选出更好的mask,作者将它命名为 Selector Net。输入是两个 4 通道图像 (binary mask + RGB image),分别独立地使用 ResNet-18 提取特征,concat 之后通过两个全连接层,得出两个分数。作者说 Selector Net 可以达到 82% 的准确度。

Criterion 2:比较 t 和 t - 1 帧的 mask,选择改变区域更少的 mask。

5. Offline selection of masks。

在第 4 步中得到了 2 个 mask (fig 1 中最后得到的 2 个 mask),再使用 Selector Net 选出更好的 mask,作为最终结果。

Experiments & Performance

在 test-challenge 上的结果:

Summary - Unsupervised Video Object Segmentation using Online Mask Selection and STM

在 test-dev 上的结果:

Summary - Unsupervised Video Object Segmentation using Online Mask Selection and STM

作者还对实验中不同阶段的结果做了比较:

Summary - Unsupervised Video Object Segmentation using Online Mask Selection and STM

Summary - Unsupervised Video Object Segmentation using Online Mask Selection and STM

总结

使用 Proposal Generation + STM 的方法,将半监督 VOS 改成 无监督 VOS。

相关文章: