行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结

前言
文章主要内容与贡献

提出PoTion

提取关节热图
聚合方案

针对PoTion设计了一个与之匹配的简单卷积神经网络
做了多个实验验证PoTion的有效性

PoTion参数实验

通道数量
聚合技术

PoTion的CNN架构

数据增强
网络结构

姿态估计的影响
将该文提出的方法与最先进的方法进行了比较

前言

这是一些对于论文《PoTion: Pose MoTion Representation for Action Recognition》的简单的读后总结，首先先奉上该文章的下载超链接：点击这里下载论文。

这篇文章是由Inria和NAVER LABS Europe的人员合作完成，作者分别是Vasileios Choutas、 Philippe Weinzaepfel、Jerome Revaud和Cordelia Schmid。该文章是UCF-101的榜首，其在HMDB51上排名第8。该文章仅于双流网络中多加入了一个PoTion流，使得网络性能得到了改善。

文章主要内容与贡献

该文章的贡献为：

提出PoTion；
针对PoTion设计了一个与之匹配的简单卷积神经网络；
做了多个实验验证PoTion的有效性。

提出PoTion

PoTion实际上是Pose moTion的一个结合，作者使用人体关节作为这些关键点和术语，即PoTion姿势运动表现。

下图是PoTion的获取方式以及结果：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
其将视频中人类的一些特定部位的运动轨迹分别分离出来，每个视频都有一组轨迹图，关键的一点就是作者使用颜色来区分轨迹的是怎样运动的。其主要思想是将第一帧染成红色，最后一帧用绿色着色，中间一帧用相同比例(50%)的绿色和红色着色。红色和绿色的确切比例是相对时间t的线性函数。

提取关节热图

提取关节热图部分，作者为每个视频帧运行 Part Affinity Fields

Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In CVPR, 2017. 1, 2, 3, 7, 8

，在MS Coco数据集上对关键点定位任务进行了训练。Part Affinity Fields能处理多个人的存在，并且对遮挡和截断具有很强的鲁棒性。得到19个热图：18个人体关节各一个(4个四肢各3个，头部5个，身体中心1个)，背景1个。用 $H^t_j$ 表示帧t中连接j的热图。 $H^t_j[x,y]$ 是像素 $(x,y)$ 在帧 $t$ 处包含连接 $j$ 的似然度。

聚合方案

其有三种不同的聚合方案，如下图所示：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
对于在几个取样点(左图中的圆圈)观测到的联合j的轨迹，用C=3(最好用颜色观察)来说明不同的聚合方案(Uj、Ij和NJ)。作者提出了不同的彩色化方案(即 $o(t)$ 的定义)，对应于不同数目的输出通道C。对于C=2，有 $o(t)=(\dfrac {t-1}{T-1},1-\dfrac {t-1}{T-1})$ ，在时间 $t$ 处，像素 $(x,y)$ 和通道 $c$ 的连接点 $j$ 的彩色热图由以下方法给出：

行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结

作者的目标是获得不依赖于视频剪辑持续时间的固定大小表示。因此用不同的方法对着色的热图进行聚集实验。首先计算每个关节j随时间变化的彩色热图之和，从而得到c通道图像 $S_j$ :
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
请注意， $S_j$ 的值取决于帧T的数目。为了获得不变量表示，将每个通道c通过除以所有像素上的最大值独立地进行。当使用其他归一化时，实验观察到类似的性能，例如将每个通道除以 $T$ 或 $\sum_t{o}(T)$ 。如此获得了一个C通道图像 $U_j$ ，称为PoTion表示：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
上图第二列显示左列上所示轨迹C=3的结果图像。可以观察到，关键点位置的时间演变是由颜色编码的。如果关节在给定的位置停留一段时间，就会积累更强的强度(轨道的中部)。这种现象可能是有害的，所以作者提出了第二种归一化强度的变体。

首先通过计算每个像素的所有通道的值来计算强度图像 $I_j$ 。 $I_j$ 是一个具有单一通道的图像：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
强度图像的示例如上图第三列所示，这种表示没有关于时间顺序的信息，但是编码了一个联合在每个位置停留的时间。通过将 $U_j$ 除以强度 $I_j$ ，现在可以得到规范化的PoTion表示。即一个如下的C通道图像 $N_j$ ：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
$\epsilon=1$ 避免分母为0。上图最右显示了N的一个示例。在这种情况下，所有位置的运动轨迹都是同等加权的，无论在每个位置花费的时间。实际上，轨迹中的瞬时停止比 $U_j$ 和 $I_j$ 中的其他轨迹位置加权得更多， $N_j$ 消除了这种影响。

针对PoTion设计了一个与之匹配的简单卷积神经网络

由于PoTion结构简单且尺寸较小，因此作者设计了一个小型的卷积神经网络来训练PoTion，如下图所示：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
当堆叠 $U_j$ ， $I_j$ 和 $N_j$ 的所有关节时，它有 $19\times(2C+1)$ 个通道。19是联合热图的数目， $U_j$ ， $I_j$ 和 $N_j$ 分别具有 $C$ 、 $1$ 和 $C$ 个通道。

做了多个实验验证PoTion的有效性

PoTion参数实验

通道数量

首先研究了药剂表示中通道数的影响。下图显示了在改变颜色通道C的数量时，JHMDB和HMDB的第一次拆分的平均分类精度。
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
由上图可知，性能首先明显增加，直到 $C=4$ 为止。然后，在HMDB和JHMDB上，性能分别在 $C=6$ 或 $C=8$ 处饱和或下降。在其余的实验中，作者使用C=4，因为它是精确性和紧凑性之间的一个很好的折衷。

聚合技术

作者研究了不同聚合方案对PoTion表示的影响，首先用三种聚合技术训练不同的模型： $U$ 、 $I$ 和 $N$ ，性能如下表所示：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
由上可知，对于小数据集JHMDB-1， $U+I+N$ 略逊于 $U$ 和 $N$ 方案，对于稍大的HMDB， $U+I+N$ 略优于单个的方案，考虑到后面的更大的数据集，因此在其余实验中，采用3种叠加聚合方案 $U+I+N$ 。

PoTion的CNN架构

数据增强

下表比较了在训练期间增加翻转数据的性能：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
可以观察到，这种数据增强策略是有效的。特别是，在最小的数据集JHMDB上，准确率提高了7%。对较大的HMDB数据集(约1%)的影响不太重要。因此，在随后的所有实验中都使用翻转数据增强。

网络结构

比较了不同的网络架构。一个网络由几个block组成，其中的空间分辨率保持不变，如下表所示：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
由上可知，网络太小导致大数据集过拟合严重，而网络过大导致欠拟合严重。因此选择了每个block 2层卷积层，3个block分别有128、256和512通道的卷积层。

姿态估计的影响

作者分析了由于姿态估计而产生的误差的影响。为了做到这一点，从JHMDB的带注释的木偶中获得了 ground truth 2D姿态，其中注释包括每个木偶关节的 $x$ ， $y$ 坐标。作者综合地从它们生成联合热图，类似于

Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In CVPR, 2017. 1, 2, 3, 7, 8

在训练中使用的热图。

这些热图是通过将高斯集中在带注释的联合位置上得到的。请注意，木偶有15个关节，而Part Affinity Fields提取的热量图有19个。由下表可知：
行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
使用木偶姿势在JHMDB上获得了大约4%的精度。同时试验了以木偶为中心的帧裁剪版本。此变体允许聚焦于演员并稳定视频，但是仅限于当我们知道是哪个演员在表演，并且我们能追踪到他时。后面的部分中GT-JHMDB指的是使用木偶造型与裁剪框架。

将该文提出的方法与最先进的方法进行了比较

行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结
显而易见，I3D+PoTion的结果都是最好的。