Cascade Feature Aggregation for Human Pose Estimation

这篇paper目前是单人姿态估计领域基于MPII数据集[email protected]评测指标位列第一的一篇2019CVPR的顶会文章，由南京开发团队（平安科技所著）.
主要有三个贡献组成：
1.提出了CFA（Cascade Feature Aggregation）级联特征聚合
2.通过融合不同阶段的结果， CFA可以进一步提高结果。
3.我们的CFA超越了最先进的结果，达到93.9%的PCKh
@0.5的值。

Cascade Feature Aggregation for Human Pose Estimation
上图是提出的CFA的结构。由多个沙漏网络按元素求和所构成，Feature Aggregation表现在每个阶段的沙漏网络会对特征图进行预测，上一层的输出同时输入到下个阶段的输入.

Cascade Feature Aggregation for Human Pose Estimation
基于沙漏网络的ResNet. 这个网络是一个编码器-译码器模型，编码器部分呢是把ResNet作为基本的结构。

Cascade Feature Aggregation
Cascade Feature Aggregation for Human Pose Estimation
上图是CFA的不同阶段的聚合表示。不同的阶段有着三种不同的特征聚合。输入聚合将为丢失的预测点带来局部详细信息，以便进行第二次预测。特征集合将高层语义信息传递到输入层。预测聚合使预测结果更加稳定。
Cascade Feature Aggregation for Human Pose Estimation
热图的融合。最终的热图是由最后几次热图预测的平均值得到的。

Experiments： Cascade Feature Aggregation for Human Pose Estimation

给出了该方法的一些失败实例。可以看出，在一些光照复杂、分辨率低、运动模糊的图像上，由于训练集中缺少此类样本，导致性能下降。

Conclusions：本文提出了一种新的人体姿态估计的CFA方法，该方法将多个沙漏级联并聚合低、中、高三个层次的特征，以较好地捕捉局部细节信息和全局语义信息。此外，提出的的CFA分别在第一阶段和接下来的阶段使用ResNet-101和ResNet-50，从而在准确性和效率之间取得了很好的平衡。实验结果表明，数据多样性对提高系统性能至关重要。

#本人目前会整理2019顶会中姿态估计的笔记整理，有需要的笔者可以关注喔~