论文浏览(24) Grouped Spatial-Temporal Aggregation for Efficient Action Recognition

Temporal reasoning 在视频分析中非常重要。
- 什么是temporal reasoning？
  - 论文中提到，UCF101和Kinetics数据集并不太需要 temporal reasoning，因为大多数类别通过静态场景和物体就可以识别，甚至打乱帧顺序得到的识别结果也差不多。
  - 换句话说，如果只有一帧基本上不能判断行为类别（比如拿起、放下等动作）。

之前的方法主要包括C2D/C3D/P3D
- C2D其实就是一些2D CNN，可以理解为TSN/TRN。
- C3D其实就是最朴素的3D神经网络，2D CNN中的1x1卷积转换为1x1x1卷积，3x3卷积转换为3x3x3卷积。
- P3D其实就是一些decompose方法，把3x3x3转化为1x3x3+3x1x1卷积。
  - 什么P3D/S3D/R(2+1)D都是这个思路。
灵感来源：
- 从上面的图中可以看出，之前的 decompose 方法都是在 spatial 或 temporal 的角度进行。
- 本文提出的方法主要是从channel从面进行decomopse。
- 换句话说，本文的思路来源于group convolution。
- 对不同group分别进行spatial和temporal操作，然后concat到一起。
Grouped Spatial-Temporal aggregation(GST)
- (a) 图就是普通的C3D形式，对于两个蓝色的分支可以理解为其输入的特征图都是一致的，并没有对输入特征图进行分组。
- (b) 就是GST-Large结构，即将用两个分支分别获取空间信息以及时间信息，并没有对输入特征图进行分组。这应该不算是真正的分组卷积。
- © 就是普通的GST结构，输入特征平均分为两部分，然后分别进行卷积操作。当然，这种情况也不能算是普通的分组卷积，毕竟 alpha 的取值不一定是0.5
参数量对比
- 这里应该指的就是一次 3x3 卷积或其分解形式的参数对比。