0. 前言
1. 要解决什么问题
- Temporal reasoning 在视频分析中非常重要。
- 什么是temporal reasoning?
- 论文中提到,UCF101和Kinetics数据集并不太需要 temporal reasoning,因为大多数类别通过静态场景和物体就可以识别,甚至打乱帧顺序得到的识别结果也差不多。
- 换句话说,如果只有一帧基本上不能判断行为类别(比如拿起、放下等动作)。
- 什么是temporal reasoning?
2. 用了什么方法
- 之前的方法主要包括C2D/C3D/P3D
- C2D其实就是一些2D CNN,可以理解为TSN/TRN。
- C3D其实就是最朴素的3D神经网络,2D CNN中的
1x1卷积转换为1x1x1卷积,3x3卷积转换为3x3x3卷积。 - P3D其实就是一些decompose方法,把
3x3x3转化为1x3x3+3x1x1卷积。- 什么P3D/S3D/R(2+1)D都是这个思路。
- 灵感来源:
- 从上面的图中可以看出,之前的 decompose 方法都是在 spatial 或 temporal 的角度进行。
- 本文提出的方法主要是从channel从面进行decomopse。
- 换句话说,本文的思路来源于group convolution。
- 对不同group分别进行spatial和temporal操作,然后concat到一起。
- Grouped Spatial-Temporal aggregation(GST)
- (a) 图就是普通的C3D形式,对于两个蓝色的分支可以理解为其输入的特征图都是一致的,并没有对输入特征图进行分组。
- (b) 就是GST-Large结构,即将用两个分支分别获取空间信息以及时间信息,并没有对输入特征图进行分组。这应该不算是真正的分组卷积。
- © 就是普通的GST结构,输入特征平均分为两部分,然后分别进行卷积操作。当然,这种情况也不能算是普通的分组卷积,毕竟 alpha 的取值不一定是0.5
- 参数量对比
- 这里应该指的就是一次
3x3卷积或其分解形式的参数对比。
- 这里应该指的就是一次
3. 效果如何
- 都是在Something-Something上做的实验
4. 还存在什么问题&有什么可以参考的地方
-
没有放Kinetics的结果,猜测应该是不咋地。
-
这种思路好像跟FAIR那篇有点类似,不过FAIR那篇论文在分组卷积上做的比较彻底。