Slow:其中一个路径旨在捕获由图像或稀疏帧提供的语义信息,它以低帧率运行,刷新速度慢。

Fast:另一个路径用于捕获快速变化的动作,它的刷新速度快、时间分辨率高。占总计算开销的20%左右。第二个路径通道较少。

二者通过横向连接(lateral connection)进行融合。

【视频行为识别】SlowFast Networks for Video Recognition

图1 SlowFast 网络包括低帧率、低时间分辨率的 Slow 路径和高帧率、高时间分辨率(Slow 路径时间分辨率的 α 倍)的 Fast 路径。Fast 路径使用通道数的一部分(β,如 β = 1/8)来轻量化。Slow 路径和 Fast 路径通过横向连接融合。

受到灵长类视觉系统中视网膜神经节细胞的生物学研究启发。研究发现,在这些细胞中,约80% 是P细胞,约15-20% 是M细胞。M细胞以较高的时间频率工作,对时间变化更加敏感,但对空间细节和颜色不敏感。P细胞提供良好的空间细节和颜色,但时间分辨率较低。

Fast路径

1)高帧率

Fast路径为小时间步长τ/α,其中α>1,Fast路径采样αT帧,比Slow途径密集α倍

2)高时间分辨率特征

整个Fast路径中均不使用时间下采样层(既不使用时间池化也不使用时间步长的卷积操作),特征张量在时间维度上总是具有αT帧,尽可能地保持时间保真度。

3)低通道容量

通道数是Slow路径的β(β<1)倍。在我们的实验中β=1/8

 

3.3横向连接

横向连接[32]:是用于合并不同级别的空间分辨率和语义的流行技术。Carreira和Zisserman提出I3D,把two-stream结构中的2D卷积扩展为3D卷积。由于时间维度不能缩减过快,前两个汇合层的卷积核大小是1×2×2,最后的汇合层的卷积核大小是2*7*7。和之前文章不同的是,two-tream的两个分支是单独训练的,测试时融合它们的预测结果。

【视频行为识别】SlowFast Networks for Video Recognition

对于ResNets[24],这些连接位于pool1、res2、res3和res4之后。这两条路径有不同的时间维度,因此横向连接执行一个转换以匹配它们(详见第。3.4条)。

 

内核的维数用{T×S2,C}表示时间、空间和通道的大小。步幅表示为{时间步幅,空间步幅2}。

这里的速度比是α=8,通道比是β=1/8。τ是16。

训练:

1)本文的模型是从随机初始化(“从头开始”)开始训练的,不使用ImageNet[7]或任何预训练。

2)对于时间域,我们随机从全长视频中抽取一个片段(αT×τ帧),慢路径和快路径的输入分别为T帧和αT帧;3)对于空间域,我们随机从视频或其水平翻转中裁剪224×224像素,较短的边随机抽取[256,320]像素。

 

预测:

1)我们对短边重新调整为256的视频执行空间完全卷积推理。

2)对于时域,在我们的实践中,我们从全长视频中均匀地采样10个剪辑,并单独计算它们的softmax分数。最终预测是所有剪辑的平均softmax分数。

按照惯例,我们会沿着视频的时间轴从视频中均匀采样10个剪辑。对于每个剪辑,我们按照[56]的代码,作为全卷积测试的近似值,将较短的空间边缩放为256像素,并采取256×256的3种裁剪来覆盖空间尺寸。我们对softmax得分进行平均以进行预测。

3)实际的推理时间计算。 由于现有论文在空间和时间上进行裁剪/剪切的推理策略不同。与以前的工作进行比较时,我们在推断时报告了每个时空“视图”(具有空间裁剪的时间片段)的FLOP,并报告了使用的视图数。回想一下,在我们的案例中,推断时空间大小为256 * 256(而不是 使用224 * 224进行训练)和10个时间片段,每个片段具有3种空间裁剪(30个视图)。

相关文章: