视频目标分割度量准则

文章目录

简介：
度量准则
参考文献

简介：

视频目标分割(VOS)本质上是一个像素级二分类问题，将一个视频序列的前景从背景区域中分离出来。DAVIS系列数据集是随着2016年CVPR的一篇论文逐渐公布的，论文名为《A Benchmark Dataset and Evaluation Methodology for
Video Object Segmentation》 $[1]$ ，DAVIS系列很大程度上丰富了视频目标分割领域的数据来源。除此之外，DAVIS官方网站根据公布的DAVIS₂₀₁₆和DAVIS₂₀₁₇，分别是针对单目标分割和多目标分割的数据集，举办了一系列DAVIS挑战赛，极大地推动了该领域的发展。如下图所示 $[2]$ ，左边的是DAVIS₂₀₁₆的单对象标注，右边的为DAVIS₂₀₁₇的多对象标注。
视频目标分割度量准则

度量准则

2016年该论文不仅推出了DAVIS数据集，提供了具有遮挡、运动模糊、外观改变等极具挑战性且稠密标注的高清视频序列，还给出了三个互补的度量方法，分别是区域相似度 $\mathcal{J}$ ,轮廓准确度 $\mathcal{F}$ 和时间稳定性 $\mathcal{T}$ ，其中前两个为主要指标。
（1）区域相似度：预测的掩膜M和真实标注G之间相交与联合区域之比，衡量了像素预测错误的程度。
$\mathcal{J}= \frac{|M{\cap}G|} {| M{\cup}G|}$ （2）轮廓准确度：在预测的掩膜 M 和真实标注G的轮廓点集之间，计算基于轮廓的查准率 $P_c$ 和召回率 $R_c$ ，两者的调和平均数即为准确度 $\mathcal{F}$ ，衡量了分割边界的准确程度。
$\mathcal{F} = \frac{2P_cR_c} {P_c+R_c}$ 若认为，预测掩膜边界和ground truth边界重合部分才是真阳性，这样当两者形状相似，但是位置有偏差，就会效果很不稳定，因此必须进行匹配。两个掩膜轮廓之间的匹配是二分图匹配问题，但是这里采取形态学算子进行简单近似。形态学算子核心包括腐蚀和膨胀两种操作，前者用3x3的结构元素，扫描图像的每一个像素，用结构元素与其覆盖的二值图像做“与”操作，如果都为1，结果图像的该像素为1，否则为0，使得二值图像缩小一圈；后者也是用结构元素与其覆盖的二值图像做“与”操作，如果都为0，结果图像的该像素为0，否则为1，使得二值图像扩大一圈。
视频目标分割领域论文中常常还可以看到 $\mathcal{J}$ Mean， $\mathcal{J}$ Recall， $\mathcal{J}$ Decay， $\mathcal{F}$ Mean， $\mathcal{F}$ Recall， $\mathcal{F}$ Decay，以及 $\mathcal{J}$ & $\mathcal{F}$ 等指标。如下图所示 $[1]$ ，其给出了原始的相关定义。
视频目标分割度量准则
$\mathcal{J}$ Mean：一个序列所有帧(半监督VOS给出的第一帧，即groundtruth帧忽略) $\mathcal{J}$ 值加起来求算数平均，最终结果是所有序列的平均值。
$\mathcal{J}$ Recall:仅统计一个序列 $\mathcal{J}$ 值超过一定阈值(如0.5)的帧，加起来求算数平均，最终结果是所有序列的平均值。
J Decay:第一帧 $\mathcal{J}$ 值(半监督VOS忽略groundtruth帧)减去最后一帧 $\mathcal{J}$ 值，最终结果是所有序列的平均值。
$\mathcal{J}$ & $\mathcal{F}$ ：( $\mathcal{J}$ Mean+ $\mathcal{F}$ Mean)/2， $\mathcal{F}$ Mean， $\mathcal{F}$ Recall， $\mathcal{F}$ Decay同理。
（3）时间稳定性：将t和t+1时刻预测的掩膜轮廓用形状上下文算子(SCD)进行描述，并采取动态时间规整(DTW)算法的思路，计算两个时刻轮廓采样点集基于形状的相似性，每个匹配点的平均开销即为 $\mathcal{T}$ 。这种衡量机制可以评估视频序列预测掩膜的平滑和准确程度，但是却会对遮挡或强烈形变尝试误判。

参考文献

$[1]$ A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation
F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung
Computer Vision and Pattern Recognition (CVPR) 2016
$[2]$ The 2017 DAVIS Challenge on Video Object Segmentation
J. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbeláez, A. Sorkine-Hornung, and L. Van Gool
arXiv:1704.00675, 2017