Summary - Unsupervised Video Object Segmentation using Online Mask Selection and STM

Summary - Unsupervised Video Object Segmentation using Online Mask Selection and Space-time Memory Networks

S. Garg, V. Goel, S. Kumar
The 2020 DAVIS Challenge on Video Object Segmentation - CVPR Workshops, 2020
DAVIS-Unsupervised-Challenge-1st-Team

[paper]

背景

半监督 VOS 的主要困难：

Matching / Re-Identification
Online Fine-tune
Occlusion, Shape Variation, Motion Blur, Object Move-in/-out

无监督 VOS 额外增加了的挑战：

如何确定要分割的物体实例

无监督 VOS 可以先对第一帧进行实例分割 (proposal)，再使用半监督 VOS 的方法完成。但这样不能达到最优性能，因为第一帧生成的 mask 质量不一定好，后面基于这个 mask 的半监督 VOS 方法预测出来的结果性能受限。

在本文中，作者在半监督 VOS 方法 STM 的基础上构建了模型，即使用 Proposal Generation + STM 的方法。

很有可能在第一帧中没有检测到所有的对象，因此作者修改了方法来添加和跟踪新添加的对象。作者注意到，即使在一帧中检测到一个对象，传播对象的 mask 质量有时也会显著降低。由于STM的输出依赖于先前的掩模，一旦 mask 质量下降，很难恢复好的 mask。

模型结构

Summary - Unsupervised Video Object Segmentation using Online Mask Selection and STM

文中的方法可以分成以下步骤：

1. 使用 Mask-RCNN 为视频中的所有帧生成 mask (generate object proposals $M$ for each frame)。限定每帧生成的 object proposals 数量不超过 10 个。对于每一帧，选择置信度分数最高的 10 个 masks，并移除置信度低于 0.1 的 masks。

2. 利用 Mask-RCNN 生成的第一帧 mask 来初始化 STM，并生成 object masks $S$ 。

3. Associate $M$ with $S$ based on IOU。

若某些 objects 能够匹配上 (IOU > 0.5)，则认为它们是旧的 objects，并将 $S$ 的 id 赋到 $M$ 上；若某些 objects 不能匹配上，则认为这些 objects 是新出现的，在后续步骤中加上。

4. 使用两个 Criterion，分别选择出更好的 mask。

Criterion 1：使用神经网络来对比较上面生成的两个 masks，并根据质量好坏为他们打上分数，选出更好的mask，作者将它命名为 Selector Net。输入是两个 4 通道图像 (binary mask + RGB image)，分别独立地使用 ResNet-18 提取特征，concat 之后通过两个全连接层，得出两个分数。作者说 Selector Net 可以达到 82% 的准确度。

Criterion 2：比较 t 和 t - 1 帧的 mask，选择改变区域更少的 mask。

5. Offline selection of masks。

在第 4 步中得到了 2 个 mask (fig 1 中最后得到的 2 个 mask)，再使用 Selector Net 选出更好的 mask，作为最终结果。