SlowFast Networks for Video Recognition论文笔记

1. 标题及来源
2. 拟解决的问题
3. 解决方法

3.1 算法流程

4. 实验结果

4.1 kinetics-400
4.2 kinetics-600
4.3 Charades
4.4 消融实验
4.5 AVA Action Detection

5. 可借鉴点

1. 标题及来源

SlowFast Networks for Video Recognition, ICCV, 2019.
论文下载链接：https://arxiv.org/pdf/1812.03982.pdf

2. 拟解决的问题

之前方法中平等对待语义信息和时序信息

3. 解决方法

通过研究人的视网膜神经细胞组成时发现，其中有80%左右的细胞用来获取语义信息，例如外观，颜色，纹理等；约15%-20%的细胞用来获取时序信息，它们的研究小组根据这一发现提出空域特征和时域特征不能平等对待。

3.1 算法流程

SlowFast Networks for Video Recognition论文笔记
该算法网络结构如上图所示。该算法由两个分支组成，上面一个分支称为slow分支，具有更多的channel，更少的T(帧)，该分支主要用来提取空域特征；下面一个分支称为fast分支，具有更少的channel(slow分支中channel数的1/8)，更多的T(帧, slow分支中T数的8倍)，该分支主要用来提取时序信息。该算法的backbone是3D ResNet，具体网络层如下所示。
SlowFast Networks for Video Recognition论文笔记
该算法流程如下：
a. 从原始视频中随机采集 $\alpha T \times \tau$ 帧，其中 $\alpha$ 是一个比例系数，用来控制slow分支和fast分支所使用帧数的比例，原文中取8；T表示slow分支中所使用的总帧数，原文中取4； $\tau$ 表示采样间隔，原文中取2。通过这种方式共采样64帧
b. 以低帧率采样(间隔 $\alpha \times \tau$ )方式从采样的视频中采集4帧送入slow分支，提取空域特征；以高帧率采样(间隔 $\tau$ )方式从采样的64帧图片中采集32帧输入fast分支，提取时序特征
c. 将fast分支中提取的时序特征( $pool_1, res_2, res_3, res_4$ )通过横向连接(lateral connections)与空域特征融合
d. 最后通过FC分类，给出预测的行为
横向连接可以通过reshape方式(T-sample)或者每 $\alpha$ 帧采集一帧特征(TtoC)或者通过3D卷积方式(T-conv)使其能与slow分支的T轴对应，然后通过Concat或者sum即可融合时序特征