Abstract
深度CNN在许多计算机视觉和图像理解任务中取得了优异的性能。然而,将视频对象分割(VOS)中的深度CNN有效地应用仍然很困难,因为将视频帧视为单独的和静态的将丢失隐藏在运动中的信息。为了解决这个问题,我们提出了一个VOS运动导向级联细化网络。通过假定对象运动通常与背景运动不同,对于视频帧,我们首先将活动轮廓模型应用于光流,以粗略地分割感兴趣的对象。然后,提出的级联细化网络(CRN)将粗分割作为指导以生成全分辨率的准确分割。这样,运动信息和深度CNN就可以相互补充,从视频帧中准确地分割出对象。此外,在CRN中,我们引入单通道残留注意模块,将粗分割图作为注意事项,使我们的网络在培训和测试中都能高效高效。我们用流行的基准进行实验,结果表明我们的方法以更快的速度达到了最先进的性能。
Introduction
视频对象分割(VOS)是计算机视觉中的一个重要问题,因为它有益于诸如对象跟踪[72],视频检索[26],活动识别[20],视频编辑[38]等其他任务。由于连续视频帧之间的强时空相关性,运动在许多视频对象分割方法中起着关键作用[61,68,1,62,36,15]。像光流[2,27,25]和像素轨迹[52,57]等运动估计揭示了帧之间的像素对应关系,并使前景/背景标签从一帧到下一帧的传播成为可能。此外,运动包含丰富的时空结构信息,有利于运动物体的分割。但是,运动估计本身仍然是一项非常困难的任务,往往会产生不准确的结果。一些常见的情况,如噪音,模糊,变形和遮挡会进一步加剧难度。
与以往主要依靠运动的方法不同,最近基于CNN的尝试[63,8,3,54,59,30,45,11,19]通过学习解决了VOS的问题。由于强大的学习能力和大量的训练数据,深度CNN在静态图像分割方面取得了非常好的表现[7,39]。而对于VOS,缺乏注释的训练数据,将帧视为静态会丢失隐藏在运动中的信息。在[3,63]中已经表明,在对第一帧进行微调之后,深CNN可以“识别”与后续帧具有相似外观的对象。然而,仅仅依靠“记忆”目标对象的外观可能会受到若干限制。例如,对象的外观可能随着时间而改变,并且背景中的对象可能与目标对象共享相似的外观。
为了利用隐藏在运动中的时空结构信息和CNN的优越学习能力,本文提出了一种用于视频对象分割的运动引导级联细化网络。该方法由两部分组成:基于光流的移动物体分割和级联细化网络(CRN)。具体而言,对于输入帧,首先从光流中提取目标对象的粗分段。 CRN然后将粗分割作为指导并输出精确的分割。
为了生成粗分割,其提供关于目标对象的粗略形状和位置的信息,我们应用活动轮廓[35,5,6]来分割由[27]估计的光流。主动轮廓是一种经典的图像分割工具,它通过寻找能够分别使前景区域和背景区域的均匀性最大化的最佳分割来工作。由于目标物体通常与背景区域具有不同的运动模式,因此我们应用活动轮廓来分割光流。此外,通过适当的初始化,主动轮廓模型可以非常有效地收敛。在每个时间帧中,我们首先计算当前帧和下一帧之间的光流,然后使用最后一帧的最终分割结果初始化光流图像上的活动轮廓。迭代演化活动轮廓后,我们可以获得目标对象的粗分割。例子如图1(a) - (c)所示。
给定粗分割,我们提出了一个级联细化网络,它以粗图为指导生成精确分割(图1(d))。在级联细化网络中,指导图充当目标对象的先验知识,帮助网络关注对象区域并忽略背景区域,从而使培训和测试都受益。此外,由于级联细化网络解决了静态图像中的分割问题,因此我们可以使用数据集对其他任务(如实例分割[12])进行有效训练。基准数据集上的实验结果验证了我们方法的有效性和效率。总之,我们做出如下贡献:(1)我们提出了一种基于光流的主动轮廓模型,可以有效和高效地从视频中分割出运动物体。 (2)我们的级联细化网络(CRN)在培训和测试中都是有效和高效的。在CRN中,我们提出了一个单通道残留注意模块,有效地利用指导图作为注意力,以帮助CRN专注于感兴趣的区域并减轻训练负担和模型大小。(3)我们的方法在三个基准上达到了最先进的性能。在DAVIS数据集[46]中,对于半监督任务,我们在0.73秒/帧时获得84.4%的mIOU,在无监督任务时达到0.36秒/帧时的76.4%,在没有后处理的情况下以更快的速度优于当前方法。
图1.我们方法的例子。 (a)输入框和初始活动轮廓。 (b)光流。 (c)通过演变(b)中的活动轮廓进行分割。 (d)以(c)为指导的最终结果。
Related Work
视频对象分割(VOS)。由于今天需要自动处理大量的视频数据,近年来的相关研究主要集中在VOS的无监督方法和半监督方法。
无监督的方法[51,43,44,67,58]假设没有关于目标对象的手动注释。为了自动识别视频中的主要对象,使用了像运动[73,40,13],对象提议[40,36,14,70,47]和显着性[67,73]等提示。在[44,73]中,作者首先通过运动边界定位移动物体,然后用基于外观的模型分割物体区域。在[16,18,31]中考虑了对象的重现和外观的一致性,以便在视频中从帧中分割主对象。半监督方法[66,10,47,42,29]接受用户在第一帧识别的目标对象,然后从后续帧中分割出对象。为了传播标签,在[68,1]中采用密集点轨迹。图形在局部[69,61]或全局[65,47]的超像素上定义,以有效地在时空空间中传播标签。基于双边制定,分割在双边空间进行[42],双边网络[29]进行训练以传播更一般的信息。
最近,基于深度学习的方法[63,41,8,3,54,59,58,30,45,11,54,33]提高了VOS的最新性能。这些方法可以根据是否使用运动信息分为两类。一类方法训练网络以明确地并入运动信息[33,11,59,45,58]或隐式地[8]。尽管运动对这些方法的性能有所贡献,但由于缺乏训练数据和光流估计的质量,直接应用网络从运动中提取目标对象可能不是最理想的。另一类方法忽略运动信息,仅依赖于外观学习[63,3]或匹配[54]。通过驱动网络“记忆”目标对象的外观,这种类型的模型可以达到最佳性能。然而,这些方法仍然受到物体变形,背景物体的干扰以及耗时的训练过程的限制。与这些方法不同,我们首先粗略地从运动中提取对象的分割,然后应用级联细化网络将粗分割细化为精确分割。由于我们的方法的两个组件都可以有效且互补地工作,因此我们以更快的速度实现了最先进的性能。
活动轮廓。主动轮廓[32]是分割的经典模型。它通过在给定图像的约束下迭代演变曲线来检测物体区域。由于其有效性和优越性[9],主动轮廓已广泛应用于图像分割[5,35,24,71,49,74]和跟踪[23,53,56]。一般来说,有两种类型的主动轮廓:基于边缘的模型和基于区域的模型。基于边缘的模型[4,35]利用图像梯度并收敛到物体边界。但是,这些方法对初始状态很敏感,并且在对象边界较弱时可能会失败。基于区域的模型[5,60,6]集中于区域均匀性而不是梯度,因此对于弱边界和对初始状态较不敏感的情况更适用。在这项工作中,我们建立了基于区域模型的方法[5]。
Method
所提出的算法的概述如图2所示。视频帧被顺序处理。 对于每一帧,我们首先从光流中分割出目标对象,然后应用级联细化网络(CRN)产生精确的结果。
图2.所提议方法的概述。 对于每一帧,首先估计光流[27]。 然后,我们使用最后一帧的分割结果来初始化光流中的活动轮廓(在活动轮廓模型中显示为蓝色曲线),并逐步演变N步以最小化能量函数,从而粗略地分割对象。最后,粗略对象蒙板被用作指导来帮助级联细化网络精确地分割目标对象实例。为了开始这个过程,用户注释用于在半监督VOS中初始化frame0,并且在无监督VOS中使用预定义矩形初始化frame0。
1.1. Object Segmentation from Motion
在VOS的任务中,提取隐藏在运动中的时空结构信息[44,73,55]是流行的,但对于不准确的运动估计和静态对象等情况来说很困难。为了更好地利用运动信息,我们建议将活动轮廓模型应用于光流。在视频中,感兴趣的对象通常具有与背景不同的运动模式。这使得基于区域的主动轮廓[5,6]模型,其通过最大化每个分割区域内的均匀性来分割图像,适合于视频对象分割。 在本节中,我们首先介绍如何使用水平集来制定活动轮廓,然后提出用于从光流中分割对象的活动轮廓模型。
1.1.1 Level Set Formulation for Active Contour
Level Set是实现活动轮廓的工具[5,6]。 给定二维像素域Ω,将曲线C定义为二维像素空间Ω(即,ω∈Ω,C =∂ω)的开放子集ω的边界。随后,图像被分割成两个子区域:区域ω由内部(C)表示,区域Ω\ω由外部(C)表示。在水平集表达式中,曲线C可以用Lipschitz函数φ:Ω→R的零水平集来表示,
利用这个公式,可以通过逐渐改变水平集函数φ(?)的值来实现在图像上演变曲线C.
由于φ(·)的符号表示一个像素或轮廓内部还是外部,φ(•)可以通过Heaviside阶跃函数H(φ)转换为二进制前景/背景标签,该函数将非负输入投影到1 而负输入为0.实际上,为避免局部最小值,使用近似版本的海维赛德函数,
1.1.2Applying ActiveContour on Optical Flow
据我们所知,这是第一次尝试将活动轮廓模型应用于移动物体分割的光流。给定一个帧t,我们首先估计(t,t + 1)帧对之间的光流与现有技术的方法FlowNet2 [27],该流程高效运行并且对物体以及运动边界敏感(图(b))。由于原始二维光流具有相对较窄的值范围,因此我们将光流转换为彩色图像并在其上应用活动轮廓模型。
给定图像和初始轮廓,首先通过计算像素与初始轮廓之间的有符号距离来定义初始水平集函数,然后迭代更新水平集函数以最小化图像上定义的能量。传统上,能量函数由两部分组成[5,6]。一种是根据格式塔原理简单性控制轮廓形状的几何约束。另一个是数据术语,迫使分裂的子区域平滑和均匀。在我们的方法中,我们凭经验发现几何约束对最终性能没有贡献。因此,为简单起见,我们只使用数据术语。给定从光流转换的彩色图像u0和初始水平集函数φ,我们迭代地更新水平集函数φ以最小化
在能量函数Eq.3,第一项限制了前景区域的同质性和平滑性。 第二个术语限制背景区域的平滑和均匀。 在每次迭代中,我们将相对于φ的能量最小化,为φ产生下面的EulerLagrange方程,
对于帧t,我们首先使用最后一帧的最终分割来初始化光流上的活动轮廓,因为正确的初始化可以大大减少收敛时间并且导致良好的分割。然后我们执行迭代最小化N个步骤,并将最终曲线内的区域视为目标对象的粗分割。一个例子如图3所示。从这个例子可以看出,我们的模型可以处理诸如不连贯运动和移动背景对象等情况。应该指出,在这一步,我们只能生成一个粗分割。在下一小节中,我们将演示如何基于粗略的分割生成精确的分割。在我们的实现中,我们还将帧对(t,t-1)的光流分段,并通过对每个像素进行或运算来组合这两个二进制掩码。此外,我们使用在最后一帧的分割中应用扩张操作产生的掩模来约束粗分割。
图3.光流中的活动轮廓示例 (a)用最后一帧的最终分割进行初始化的曲线。 (b)使用的光流。 (c)使用(f)中的粗分割作为指导的最终分割。 (d) - (f)曲线在不同的迭代。
Cascaded Refinementwith Guidance
在本节中,我们提出了可以在光流基活动轮廓模型的粗分割指导下有效分割对象的级联细化网络(CRN)。由于指导图提供了关于目标对象的位置和形状的粗略信息,因此网络不需要刻意学习如何定义和定位目标对象,但是可以只关注在给定区域中分割主导对象并且与给定区域 粗糙的形状。 此外,由于CRN的任务是从静态图像中分割对象实例,因此可以使用PASCAL VOC等实例分割的数据集对其进行有效训练。
1.1.1 Cascaded Refinement Network (CRN)
图4.网络概述。 (a)级联细化网络(CRN)的概述。 低于RM 5的“0张量”是用作RM 5的输入的0垫片伸缩器。(b)精炼模块RM的细节3.所有的精炼模块具有相同的结构。 (c)RM中使用的单通道剩余注意模块(SRAM)的详细信息。
如图4(a)所示,我们的CRN利用ResNet101[22]进行特征编码(即Conv1,Conv2 x,Conv3 x,Conv4 x,Conv5 x),并采用粗到细的方案。工作流程由五个阶段的精炼模块(即RM5,RM4,RM3,RM2,RM1)组成,结构相同。起始模块RM5的分辨率为16 * 16,并且在两个连续的模块之间翻倍。给定一个512 * 512的输入,我们首先通过活动轮廓模型将粗分割下采样到16 * 16作为指导图。然后,我们将输入图像输入网络,并将导航地图输入RM5。从RM5到RM1,五个精炼模块按照相应的分辨率顺序操作,最后网络输出精确的全分辨率分割图。我们将导航地图重新缩放到如此小的尺寸,因为空间缩减采样抑制了导航地图的不准确性
精炼模块(RM)。所有炼油模块共享相同的结构。以RM3为例,如图4(b)所示。对于网络中的精炼模块RMi,它接收三个输入并产生两个输出。这两个输出是一个特征地图Featurei和一个分割预测Guidancei。这三个输入包括来自相应ResNet块的特征映射,以及最后一个模块RMi + 1的两个输出,即Featurei + 1和Guidancei + 1。对于开始精炼模块RM5,由于只有两个输入可用,所以我们使用0填充张量来扮演缺少输入的角色。对于最后一个精炼模块RM1,我们将其分割预测Guidance1作为最终输出。
在精化模块RMi中,我们首先通过ConvR1对来自ResNet的特征映射应用通道减少,该通道由1 * 7 conv层和7 * 1 conv层组成。然后利用粗分段Guidancei + 1通过单声道剩余注意模块(即SRAM 1)来引导这些特征集中在目标区域上。得到的特征映射与Featurei + 1具有相同的形状,因此我们明智地将它们添加到元素中。合并的特征然后由另一个单通道残留注意模块(即SRAM 2)处理以帮助进一步关注感兴趣的区域。然后,来自SRAM 2的特征被用来通过3 * 3卷积层Conv R2预测当前分辨率的精细分割图。最后,来自SRAM 2的特征和细化的分割图都以2作为输出进行放大。这两个输出(即Featurei和Guidancei)以及来自较高ResNet模块的特征映射被用作RMi-1的输入,可以使用较大的分辨率。
单通道剩余注意模块(SRAM)。这个模块是一个轻量级单频道注意的残余模型,其灵感来源于[64,37]。单通道残留注意模块的框架如图4(c)所示。 SRAM是精炼模块中的重要组成部分,因为它将目标对象的粗分段作为单通道注意力来帮助网络集中于感兴趣的区域。如图4(c)所示,SRAM采用特征映射χ以及指导映射ψ作为输入。与残差单元[22]一样,有两条路径,一条是身份路径,另一条路径是由两个3 * 3卷积层(即Conv1和Conv2)形成的,它们将输入χ转换为F(χ)。为了突出感兴趣的区域,单通道指导图ψ的值被用作关注系数以乘以F(x)中的相应空间位置的特征向量。然后将这两个特征映射元素明智地相加成为输出,
其中ψe是通过复制单通道制导映射ψ以具有与F(χ)相同的通道而形成的张量。该模块运行良好,因为它允许网络专注于感兴趣的区域并学习对象实例分割的特征。此外,由于我们将剩余单位与单通道注意力相结合,此模块的参数数量非常少。
1.1.2 Network Implementation and Training
在我们的实现中,在ImageNet[50]上预训练的ResNet101 [22]用于初始化特征编码网络,对于所有其他卷积层,我们应用Xavier初始化[17]。在我们的网络中,除了精炼模块中的Conv R2之外,所有的conv层都跟着BatchNormalization和ReLU层。
培训级联细化网络(CRN)。 CRN的任务是在粗分割的引导下从输入图像中分割对象,因此它允许我们利用其他任务(如实例分割)的现有数据集。我们用来自PASCAL VOC2012数据集[11]的11355个图像和[21]提供的实例注释来训练网络。为了训练CRN,每个训练样本包括三个部分:分辨率为512 * 512的输入图像,大小为512 * 512的二进制地面实体和尺寸为16 * 16的二进制导航地图。在每次训练迭代中,我们从PASCAL VOC2012数据集中提取一幅图像,并利用它来制作4号训练批次。批次中的每个样本都是通过随机选择一个实例作为前景并将所有其他区域作为背景创建的。为了在训练样本中生成指导图,我们在前景蒙板上应用随机形态学操作,包括扩大和腐蚀结合三种类型的内核(直肠,食道,十字形),大小在8-24像素之间,然后缩放它到16 * 16。在训练期间,所有阶段的预测都与二进制交叉熵损失联合训练,并使用SGD进行优化,初始学习率为0.0001,动量0.9为10个时期。
VOS的离线培训。在对PASCALVOC数据集进行初始培训后,CRN能够根据指导对通用对象实例进行分割。为了使网络适应视频对象分割,我们在[63,3,8,45]中进一步训练DAVIS2016的训练分割网络。 CRN使用SGD进行调整,批量为4,学习率为0.0001,动量为0.9,时间为40个时期。在地面实体上应用随机形态学操作后,制作尺寸为16 * 16的指导图。数据增强如翻转和重新缩放适用于训练。
VOS的在线培训。在基于CNN的方法中,对测试视频的第一帧进行微调可以极大地帮助网络专注于目标对象并抑制背景[63,3,8,45]。因此,对于半监督的VOS,我们也会在第一帧对网络进行微调。在线培训期间,我们制作了指导图并应用了离线培训步骤中的数据增强。 CRN由SGD进行优化,批量为1,学习率为0.002,动量为0.9,进行100次迭代。由于通过活动轮廓模型的粗略制导映射减轻了用于定位目标对象的学习负担,所以没有必要在第一帧上严格地微调我们的CRN。因此,我们的方法可以高效而有效地执行。
Experiments
我们在两个公共基准上进行实验。DAVIS2016 [46]是一个具有挑战性的视频对象分割数据集,由30个训练视频和20个验证视频组成。区域相似度J和轮廓精度F [46]用于对该数据集进行定量评估。 YoutubeObjects [48,28]包含10个具有126个具有挑战性的视频的对象类别。每个帧都提供了像素级注释。采用交集联盟(mIoU)度量的均值来评估该数据集。
我们的方法是通过PyTorch使用Python / C实现的。 所有的实验都是在带有NividiaTitanX GPU和3.3GHz CPU的个人电脑上进行的。
1.1. Comparison to State-of-the-art
半监督VOS。在测试过程中,CRN首先在PASCAL VOC数据集上进行培训,然后在DAVIS2016的培训分支上进行离线培训。鉴于测试视频,我们首先使用第一帧应用在线培训。然后,用户注释初始化第一帧的活动轮廓,并按照图2顺序处理后续帧。我们将我们的方法(λ1= 0.2,λ2= 0.4,N = 10)与状态包括DAVIS2016上的OnAVOS [63],OSVOS [3],MSK [45],CTN [30]和SegFlow [8]。如表1的左半部分所示,没有后处理,我们的方法胜过了这些最先进的方法。与后处理相比,后处理是当前最先进的方法,我们的方法在轮廓精度(F)和区域相似性(J)方面实现了更好的性能。然而,OnAVOS采用了在线适应,测试时间增加和后处理与denseCRF [34]等技术,这些技术依赖于大量消耗时间(15.57秒/帧)和计算资源。我们的方法效率更高(0.73秒/帧),并且可以通过单个前馈过程精确分割视频帧中的对象,而无需任何后处理步骤。在YoutubeObjects上,我们还将我们的方法与OnAVOS [63],OSVOS [3],MSK [45],BVS [42],OFL [61],STV [68],JOT [ 69]。如表2所示,结果显示我们的方法达到了最先进的性能。 YoutubeObjects数据集的相对较弱的性能是由于视频帧的低分辨率和非常大的采样间隙。我们方法的一些定性结果显示在图5的前两行中。
无监督的VOS。我们还扩展了我们的无监督视频对象分割任务的方法。为了生成第一帧的遮罩,我们用光流图像上的预定义矩形初始化活动轮廓,并对其进行20次迭代以获得粗分段。然后,我们的级联细化网络将粗分割作为指导图并生成更准确的分割(图5(a)的最后两行)。利用这种分段作为第一帧的初始掩码,后续帧按照图2顺序处理。这里使用的级联细化网络是离线训练的。在表1的右边部分,我们比较了DAVIS2016上的ARP监测方法[31],LVO [59],FSEG [11]和LMP [58]等最新的无监督方法。结果表明,我们的方法(λ1= 0.2,λ2= 0.4,N = 10)优于其他方法,并达到了最先进的性能。我们的无监督方法的一些例子显示在图5的最后两行中。如图所示,我们的无监督方法可以可靠地跟踪目标区域。
1.1. Method Analysis
主动轮廓用于粗分割。在这项工作中,我们将活动轮廓(方程4)应用于光流图像以分割移动物体。有三个参数:λ1,λ2以及迭代次数N.根据[6]进行一些粗略的手动调整后,我们设置λ1= 0.2,λ2= 0.4,并且显示这两个参数的不同组合的性能为了评估基于光流的主动轮廓模型的有效性,我们运行没有级联细化网络的系统。不同迭代次数N的性能显示在表3的第一行(由“AC-only”表示)中。如表中所示,如果没有CRN的细化,我们的基于光流的活动轮廓模型本身可以实现DAVIS2016上的0.553。此外,具有不同迭代次数N的完整系统的性能在表3的最后一行(由“AC + CRN”表示)中示出。在该行中,“N = 0”表示最后一帧的分段是直接作为CRN的指导,因此系统只与CRN一起运行。如表中所示,没有基于光流的主动轮廓,我们的CRN本身的性能达到了0.824,这已经比大多数最先进的方法更好。当与10次迭代的活动轮廓模型结合时,性能进一步增加到0.844。改进证明了所提出的基于光流的主动轮廓模型是有效的。
级联细化网络(CRN)。我们首先将我们的方法与基线进行比较。除了RM5中的SRAM 1和SRAM 2被正常的剩余单元替代之外,基线与CRN具有相同的结构[22]。因此,基线不接受来自外部的指导图并忽略帧之间的运动。我们首先训练PASCAL VOC对象的基线[63],然后根据DAVIS2016的训练分割对其进行微调,最后通过在线培训进行测试。如表4最后一栏所示,基准线也达到了最先进的性能。然而,当比较我们的运动引导级联细化网络时,基线滞后,平均值(J)为0.039,平均值(F)为0.036。
如第3.2.2节所述,我们首先在PascalVOC数据集上训练CRN,然后使用DAVIS2016的训练分割进行离线训练,最后应用第一帧的在线训练进行测试。在表4中,我们展示了我们的系统具有不同训练阶段的CRN的性能。如表中所示,离线训练步骤使CRN适应视频对象分割的任务,因此平均(J)中的性能提高了0.238。此外,第一帧的在线培训有助于我们的CRN进一步适应测试视频,因此将平均值(J)提高0.08。对于半监督任务,在线训练步骤的不同训练迭代的执行情况在表5中示出。正如我们可以看到的,在第一帧上进行太多的微调不仅增加了CRN的运行时间,而且还损害了性能有时。运行时间。在实验中,我们调整输入大小
512 * 512。对于每一帧,FlowNet2 [27]的光流估计大约需要0.15秒。 N = 10的活动轮廓模型需要0.10秒,级联细化网络需要约0.11秒。对于半监督任务,执行100次迭代的在线培训需要每个视频约25秒。因此,我们的方法在DAVIS2016平均每帧0.73秒(s / f)运行。与OSVOS(9.24 s / f),OnAVOS(15.57 s / f)等其他现有技术方法(表1的最后一行)相比,我们的方法以更快的速度达到了现有的精度。对于无监督任务,由于我们不需要对第一帧进行微调,因此我们的方法可以实现平均速度为每帧0.36秒的最新性能。
Conclusion
在本文中,提出了一种用于视频对象分割的运动引导级联细化网络。我们首先建议对光流应用活动轮廓来分割运动物体。我们还提供了一个级联细化网络,可在光流基活动轮廓粗略结果的指导下生成准确的分割结果。在由这两部分组成的提议系统中,运动信息和深度CNN可以很好地相互补充以完成VOS的任务。基准测试表明我们的方法以更快的速度实现了最先进的性能