这篇paper目前是单人姿态估计领域基于MPII数据集[email protected]评测指标位列第一的一篇2019CVPR的顶会文章, 由南京开发团队(平安科技所著).
主要有三个贡献组成:
1.提出了CFA(Cascade Feature Aggregation)级联特征聚合
2.通过融合不同阶段的结果, CFA可以进一步提高结果。
3.我们的CFA超越了最先进的结果, 达到93.9%的PCKh
@0.5的值。

Cascade Feature Aggregation for Human Pose Estimation
上图是提出的CFA的结构。由多个沙漏网络按元素求和所构成,Feature Aggregation表现在每个阶段的沙漏网络会对特征图进行预测,上一层的输出同时输入到下个阶段的输入.

Cascade Feature Aggregation for Human Pose Estimation
基于沙漏网络的ResNet. 这个网络是一个编码器-译码器模型,编码器部分呢是把ResNet作为基本的结构。

Cascade Feature Aggregation
Cascade Feature Aggregation for Human Pose Estimation
上图是CFA的不同阶段的聚合表示。不同的阶段有着三种不同的特征聚合。输入聚合将为丢失的预测点带来局部详细信息,以便进行第二次预测。特征集合将高层语义信息传递到输入层。预测聚合使预测结果更加稳定。
Cascade Feature Aggregation for Human Pose Estimation
热图的融合。最终的热图是由最后几次热图预测的平均值得到的。

Experiments:Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
Cascade Feature Aggregation for Human Pose Estimation
给出了该方法的一些失败实例。可以看出,在一些光照复杂、分辨率低、运动模糊的图像上,由于训练集中缺少此类样本,导致性能下降。

Conclusions:本文提出了一种新的人体姿态估计的CFA方法,该方法将多个沙漏级联并聚合低、中、高三个层次的特征,以较好地捕捉局部细节信息和全局语义信息。此外,提出的的CFA分别在第一阶段和接下来的阶段使用ResNet-101和ResNet-50,从而在准确性和效率之间取得了很好的平衡。实验结果表明,数据多样性对提高系统性能至关重要。

#本人目前会整理2019顶会中姿态估计的笔记整理,有需要的笔者可以关注喔~

相关文章: