【视频行为识别】SlowFast Networks for Video Recognition

Slow：其中一个路径旨在捕获由图像或稀疏帧提供的语义信息，它以低帧率运行，刷新速度慢。

Fast：另一个路径用于捕获快速变化的动作，它的刷新速度快、时间分辨率高。占总计算开销的20%左右。第二个路径通道较少。

二者通过横向连接（lateral connection）进行融合。

图1 SlowFast 网络包括低帧率、低时间分辨率的 Slow 路径和高帧率、高时间分辨率（Slow 路径时间分辨率的 α 倍）的 Fast 路径。Fast 路径使用通道数的一部分（β，如 β = 1/8）来轻量化。Slow 路径和 Fast 路径通过横向连接融合。

受到灵长类视觉系统中视网膜神经节细胞的生物学研究启发。研究发现，在这些细胞中，约80% 是P细胞，约15-20% 是M细胞。M细胞以较高的时间频率工作，对时间变化更加敏感，但对空间细节和颜色不敏感。P细胞提供良好的空间细节和颜色，但时间分辨率较低。

Fast路径：

1）高帧率

Fast路径为小时间步长τ/α，其中α>1，Fast路径采样αT帧，比Slow途径密集α倍

2）高时间分辨率特征

整个Fast路径中均不使用时间下采样层（既不使用时间池化也不使用时间步长的卷积操作），特征张量在时间维度上总是具有αT帧，尽可能地保持时间保真度。

3）低通道容量

通道数是Slow路径的β（β<1）倍。在我们的实验中β=1/8

3.3横向连接

横向连接[32]：是用于合并不同级别的空间分辨率和语义的流行技术。Carreira和Zisserman提出I3D，把two-stream结构中的2D卷积扩展为3D卷积。由于时间维度不能缩减过快，前两个汇合层的卷积核大小是1×2×2，最后的汇合层的卷积核大小是2*7*7。和之前文章不同的是，two-tream的两个分支是单独训练的，测试时融合它们的预测结果。

【视频行为识别】SlowFast Networks for Video Recognition

对于ResNets[24]，这些连接位于pool1、res2、res3和res4之后。这两条路径有不同的时间维度，因此横向连接执行一个转换以匹配它们（详见第。3.4条）。

内核的维数用{T×S2，C}表示时间、空间和通道的大小。步幅表示为{时间步幅，空间步幅2}。

这里的速度比是α=8，通道比是β=1/8。τ是16。

训练：

1）本文的模型是从随机初始化（“从头开始”）开始训练的，不使用ImageNet[7]或任何预训练。

2）对于时间域，我们随机从全长视频中抽取一个片段（αT×τ帧），慢路径和快路径的输入分别为T帧和αT帧；3）对于空间域，我们随机从视频或其水平翻转中裁剪224×224像素，较短的边随机抽取[256，320]像素。

预测：

1）我们对短边重新调整为256的视频执行空间完全卷积推理。

2）对于时域，在我们的实践中，我们从全长视频中均匀地采样10个剪辑，并单独计算它们的softmax分数。最终预测是所有剪辑的平均softmax分数。

按照惯例，我们会沿着视频的时间轴从视频中均匀采样10个剪辑。对于每个剪辑，我们按照[56]的代码，作为全卷积测试的近似值，将较短的空间边缩放为256像素，并采取256×256的3种裁剪来覆盖空间尺寸。我们对softmax得分进行平均以进行预测。

3）实际的推理时间计算。由于现有论文在空间和时间上进行裁剪/剪切的推理策略不同。与以前的工作进行比较时，我们在推断时报告了每个时空“视图”（具有空间裁剪的时间片段）的FLOP，并报告了使用的视图数。回想一下，在我们的案例中，推断时空间大小为256 * 256（而不是使用224 * 224进行训练）和10个时间片段，每个片段具有3种空间裁剪（30个视图）。