Temporal Pyramid Network for Action Recognition

题目：Temporal Pyramid Network for Action Recognition

期刊级别：2020 CVPR A类

针对的问题：现实中视频动作的速度往往是不同的，如果不考虑速度的话，walking，jogging和running三个在形态上很相似的动作也很难被识别出来。过快的或过慢的帧速率都会对检测结果造成影响。

不同的视频动作，适应于不同的视频帧速率。比如慢跑和走。

采用的方法：构造了一种时间序列的金字塔模型。以低帧速率操作的慢速路径，以高帧速率操作的快速路径（下图中上面是低速率下面是高速率，就是抽帧的间隔大不大），以精细的时间分辨率捕获动作。这些需要重复提取不同时间尺度上的特征。

Temporal Pyramid Network for Action Recognition

为什么取名叫金字塔，因为长得像。

Backbone模块：在不同分辨率的特征图中，以不同的帧速率提取不同组合的特征图，并形成新的特征图。

Spatial Modulation模块：通过一系列不同步长的卷积，在空间尺度上对齐来自不同深度特征。通过在每层最后添加分类层，增强监督信息。

Temporal modulation模块：通过引入超参数，在时间维度上进行整合。对于不同的深度的特征进行不同程度时序上的下采样。从而使得不同深度的特征图拥有不同的rate。

Information flow模块：特征融合，类似fpn结构。

存在的问题：因为需要重复提取不同时间尺度上的特征，所以时间和空间上的开销很大。