《A Closer Look at Spatiotemporal Convolutions for Action Recognition》

 

作者主要观点:

3D ResNets要比相同深度的2D ResNets,在大规模动作识别基准(如Sports-1M和Kinetics)上的训练识别结果更好。

 

研究方法:

实验分两部分:

  1. 以18层ResNet模型为基础,将本文提出的时空卷积与以往的卷积方法进行对比实验,得出R(2+1)D的卷积方法最好。
  2. 将34层的R(2+1)D模型分别与四个训练集(Sports-1M,Kinetics,UCF101,HMDB51)上最先进方法进行实验对比。

 

论文主要贡献:

  1. 提出一种新的时空卷积块R(2+1)D,它将结合CNNs处理识别任务
  2. 证明结合残差块学习的3D CNNs在识别精度上要高于2D CNNs
  3. 实验表明将3D卷积滤波器分解为单独的空间和时间分量可以显着提高准确度

 

待解决问题:

  1. R(2+D块是用在R3D模型的基础上,可以尝试和其他模型进行结合
  2. R(2+1)D模型在识别精度上并没有超过I3D,甚至略差于I3D。

 

 

1.Introduction

2D CNN(ResNet-152)仅处理视频单帧得出的识别精度,非常接近当时最先进的动作识别算法在 Sports-1M 数据集上的表现。考虑到2D CNN无法模拟时间信息和运动模式,这一结果既令人惊讶又令人沮丧,人们认为这是视频分析的关键方面。

我们将要证明 3D ResNets 在相同的网络深度下,性能要显著优于2D ResNets(数据集为Sports-1M和Kinetics)。本文提出两种介于2D和3D之间的时空卷积模型,MC和a(2+1)D

MC又称混合卷积(mixed convolution),原理是运动建模是一种低/中级操作,通过网络早期层的3D卷积实现,然后顶层的2D卷积负责对这些运动特征进行空间推理。

a(2+1)D 是卷积块,它将3D卷积分成两个独立且连续的操作,2+1指的是2D空间卷积配合1D的时间卷积。这种新的结构有以下优点:1)与相同数量参数的full 3D卷积相比,有效使非线性的数量加倍。 2)有效降低训练集和测试集的损失值,促进优化能力。

3)与外观和动态共同交织的full 3D filters相比,(2+1)D blocks更容易优化。

4)ResNets所有层中都可以采用(2+1)D blocks

 

2.Related Work

       有很多研究工作是关于利用时空特征进行视频分析识别,其中一些提出视频的代表因素(时空兴趣点 STIPs,SIFT-3D,HOG3D)。

       R(2+1)DFSTCN 网络(Factorized Spatio-Temporal Convolutional Networks)相似,都是将时空卷积分开,得到时间层和空间层。R(2+1)D还具有Pseudo-3D网络的一些相似的原理,但又不太相同,R(2+1)D在网络所有层中使用的都是统一类型的时空残差块。

 

3.Convolutional residual blocks for video

       这一段主要内容是介绍多种带有残差学习结构的时空卷积网络的变体。

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

以上网络输入的尺寸为 3×L×H×W ,L表示帧数,3表示RGB图片信道,H,W表示单帧图片的高和宽。第i层残差块的输出为《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结  

 

R2D

2D卷积神经网络将视频中的帧当做信道来作为输入,所以2D Conv处理的仅仅只是空间维度而不包含时间维度。因此,R2D中的第一个卷积层在单通道特征映射中折叠视频的整个时间信息,这可防止在后续层中发生任何时间推理。

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

f-R2D

另一种2D CNN方法,它通过一系列2D卷积的残差块,单独的处理L帧(每一帧用相同的卷积块)。在卷积层中不执行时间建模,并且顶部的全局时空池化简单地融合独立于L帧提取的信息。

 

R3D

3D CNNs计算视频的时间信息,并将这些信息传递到网络中的层。每一个残差层的输入是四维的(包括时序维)。

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

MCx  与 rMCx

MCxMixed Convolutions): 动作建模(3D CNNs)可能只在最初的几层中有作用,基于这个假设,作者设计了5

种R3D的变体,它们都是在最后几层使用2D卷积提取动作和时间特征。

MC5 将第五组conv5_x的所有3D卷积换成2D卷积

MC4 用2D卷积替换第四和五组中深层的3D卷积

MC3,MC2 的方法如上

MC1 的结构和 2D ResNet(f-R2D)一致

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

rMCxReversed Mixed Convolutions)

rMCx 与MCx 的结构反过来,它是将2D卷积层用在最初几层进行外观信息的提取,使用3D CNNs在深层进行时序信息的提取。这个实验是基于假设,时间建模可能在深层网络中更有效。同样设计了5种变体,rMC2, rMC3, rMC4和rMC5。

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

R(2+1)D

R(2+1)D将3D卷积分成 2D空间卷积+1D时间卷积。3D卷积核的尺度为《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结 ,由《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结  2维卷积滤波器(尺度为《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结 )和《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结 时间卷积滤波器(尺度为《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结 )组成。

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

R(2+1)D结构有两种优点

  1. 由于在2D和1D卷积之间额外增加了ReLU函数,所以能在不改变网络参数的情况下,将网络的非线性表示能力翻倍提高。
  2. 与具有相同结构参数的3D卷积网络相比,R(2+1)D能取得较低的训练误差,即更容易优化。
  3. 下图实验证明,R(2+1)D在训练集和测试集上的损失值都比R3D要低,而且随着网络层数的增加(18层à34),R(2+1)D与R3D训练样本损失的差距更明显。

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

关于实验部分

第一部分:以18层ResNet模型为基础,将本文提出的时空卷积与以往的卷积方法进行对比实验,得出R(2+1)D的卷积方法最好

网络结构:以R3D网络为基础,以L帧尺寸为112*112大小的RGB图片为输入,在conv1中使用步长为1*2*2的卷积操进行空间下采样,在conv3_1,conv4_1和conv5_1上使用步长为2*2*2的时空下采样。

 

试验数据如下:

识别准确率

(注意,视频级预测是通过对在视频中均匀间隔的10个剪辑获得的剪辑级预测进行平均来完成的。)

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

下图表示各模型计算复杂度:

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

R2D比f-R2D快约7倍,但识别精度不高,因为它在conv1之后折叠了时间维度。

实验结果表明:

 1)动作建模在动作识别任务中很重要

2)3D卷积分成独立的时间和空间卷积的方法,比联合时空信息、混合2D-3D卷积得到的效果更好。

3)时间建模对长输入剪辑更有利

4)R(2+1)D比R3D更容易优化,特别是随着深度的增加

 

由于Varol等人的论文指出在较长的输入剪辑(例如,100帧)上训练视频,可以提高训练的准确度。所以作者使用18层的R(2+1)D对来自Kinetics上的不同剪辑长度进行评估:8,16,24,32,40和48帧

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

然后作者又做了两个实验,用于找出“在相同的参数模型下,是什么导致视频级的识别的精度差异” 。这两个实验表明,用更长剪辑(longer clips)来训练,能得到更好的clip-level models,因为过滤器会学习longer-term的时间模式。

以下这张图显示,准确的video-level预测需要多少个clips?(意思是,要预测一个视频中的动作,需要在该视频中剪辑多少个片段帧.)

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

 

第二部分实验:将34层的R(2+1)D模型分别与四个训练集(Sports-1M,Kinetics,UCF101,HMDB51)上最先进方法进行实验对比。

结构和R3D-34一样,只是将3D Conv改成(2+1)D。

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

Sports-1M上的实验结果

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

Kinetics上的对比训练结果

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

 

UCF101和HMDB51上的对比训练结果

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

相关文章: