题目:Temporal Pyramid Network for Action Recognition
期刊级别:2020 CVPR A类
针对的问题:现实中视频动作的速度往往是不同的,如果不考虑速度的话,walking,jogging和running三个在形态上很相似的动作也很难被识别出来。过快的或过慢的帧速率都会对检测结果造成影响。
不同的视频动作,适应于不同的视频帧速率。比如慢跑和走。
采用的方法:构造了一种时间序列的金字塔模型。以低帧速率操作的慢速路径,以高帧速率操作的快速路径(下图中上面是低速率下面是高速率,就是抽帧的间隔大不大),以精细的时间分辨率捕获动作。这些需要重复提取不同时间尺度上的特征。
为什么取名叫金字塔,因为长得像。
Backbone模块:在不同分辨率的特征图中,以不同的帧速率提取不同组合的特征图,并形成新的特征图。
Spatial Modulation模块:通过一系列不同步长的卷积,在空间尺度上对齐来自不同深度特征。通过在每层最后添加分类层,增强监督信息。
Temporal modulation模块:通过引入超参数,在时间维度上进行整合。对于不同的深度的特征进行不同程度时序上的下采样。从而使得不同深度的特征图拥有不同的rate。
Information flow模块:特征融合,类似fpn结构。
存在的问题:因为需要重复提取不同时间尺度上的特征,所以时间和空间上的开销很大。
https://aistudio.baidu.com/aistudio/education/group/info/1340