【论文复现】Temporal Pyramid Network for Action Recognition

论文地址： https://arxiv.org/abs/2004.03548

导读：这篇文章是香港中文大学和商汤发表在CVPR 2020 的文章
作者提出TPN网络，用于视频分类问题的解决，思想和slowfast的思想相似

在相同速率下很难识别出来走、慢走和跑的动作，不同的视频帧速率对检测结果影响很大，现有的视频模型设计忽略了视觉速度这一至关重要的点
在此之前facebook的kaiming提出slowFast （代码地址）网络结构的想法很相似，快慢结合的网络，上面一个分支是slow网络，输入低帧率，用于捕获空间语义信息；下面一路是fast网络，用于捕获运动信息，具体如下图：
【论文复现】Temporal Pyramid Network for Action Recognition
上面两个图，下面六个图，呈现出来了金字塔形状，不同尺度的下采样送入网络，问题在于需要重复提取不同时间尺度上的特征，计算花费很大

所以提出来了解决方法：

第一部分

时间尺度

在不同分辨率的特征图中，以不同的帧速率提取不同组合的特征图，并形成新的特征图
以单个分辨率特征图为例，将特征图 F(C ×T ×W ×H) 根据 {r1, …, rM; r1 < r2 < … < rM} 划分组合得到新的特征图
$F\left\{ C × \frac{X}{r^1} × W × H, \cdots ,C × \frac{T}{rM} × W × H \right\}$

简单来讲需要构建时间的金子塔，进行了图排序
例如，从图像中每隔十帧里面进行抽取了一帧，总共十帧图像，再间隔r1=2中取，获得新的特征图，进行拼接，下一次再从r2=3中，获得新的特征图，在进行拼接取以此类推获得到了 $\left\{ C × \frac{X}{r^1} × W × H, \cdots ,C × \frac{T}{rM} × W × H \right\}$ 时间序列的金字塔形状的操作

第二部分

空间尺度

【论文复现】Temporal Pyramid Network for Action Recognition

1、通过一系列不同步长的卷积，在空间尺度上的对齐来自不同深度特征

2、通过在每层添加分类层，增强监督信息。
$\mathcal L_{total} = \mathcal L_{C E,o} +\sum_{i=1}^{M-1} \lambda_i \mathcal L_{C E,i,}$

3、对前面的模块得到的特征进行特征整合，包括三种方式：
【论文复现】Temporal Pyramid Network for Action Recognition

由于网络不同层次的输出，其空间与时间的大小不一致，信息不能很好的融合。

Spatial Semantic Modulation 空间语义的调整。

由于网络的不同深度的输出大小不一致，为了便于融合，就是需要调整空间大小，本文直接使用卷积去调整大小一致。另一方面，本文的损失函数是使用中间层监督的方法，即每一层都加入一个交叉熵损失的约束。当然这样做的一个细节就是网络的初始层，梯度来源多源，变动比较大。
Temporal Rate Modulation 时序的对齐调整

结果：
【论文复现】Temporal Pyramid Network for Action Recognition
表2 result of K400

【论文复现】Temporal Pyramid Network for Action Recognition

网络结构具体操作还需要代码解读，详见github地址：
https://github.com/decisionforce/TPN

感谢百度大脑，paddlepaddle组织顶会论文复现活动，让我加班加点写代码，熬夜读paper !
痛苦并快乐着！
感谢AI技术生态部的团队的老师的讲解和运营团队的努力准备，尤其是班班-芮芮班主任，直播后加班加点赶视频，整理内容，解答问题，天天工作到凌晨2、3点钟，激发我继续努力学习的动力！