深度学习-人体姿态估计

人体姿态估计（Human Posture Estimation），是通过将图片中已检测到的人体关键点正确的联系起来，从而估计人体姿态。

人体关键点通常对应人体上有一定自由度的关节，比如颈、肩、肘、腕、腰、膝、踝等，如下图所示。

深度学习-人体姿态估计

人体姿态估计（Human Pose Estimation）也称为人体关键点检测（Human Keypoints Detection）。

通过对人体关键点在三维空间相对位置的计算，来估计人体当前的姿态。

进一步，增加时间序列，看一段时间范围内人体关键点的位置变化，可以更加准确的检测姿态，估计目标未来时刻姿态，以及做更抽象的人体行为分析，例如判断一个人是否在打电话等。

对于人体姿态估计的研究，大致可做如下分类

后者多一项Depth信息，常用于3D人体姿态估计的研究。

对于Video，除了人体姿态估计算法外，要增加对于关键点的Tracking（追踪）的研究。

Top-down vs. Bottom-up

以上为深度学习方法中两个主要的研究思路。

Top-down首先利用目标检测算法检测出单个人，然后对proposal进行关键点的检测。这种方法一般具有较高的准确率但是处理速度较低。代表性的方法有：

（1） Stacked Hourglass Network（半壁江山）

Github: https://github.com/Naman-ntc/Pytorch-Human-Pose-Estimation (Pytorch)

https://github.com/wbenbihi/hourglasstensorlfow (Tensorflow)

（2） Convolutional Pose Machine

Github: https://github.com/timctho/convolutional-pose-machines-tensorflow (Tensorflow)

https://github.com/JindongJiang/WeightedLoss_Convolutional_Pose_Machines_PyTorch (Pytroch)

（3） Cascaded Pyramid Network

Github: https://github.com/chenyilun95/tf-cpn

（4） Simple Baseline (proposed by MSRA)

Github: https://github.com/Microsoft/human-pose-estimation.pytorch

（5） Multi-Stage Pose Network (MSPN，由Face++提出，2018年coco 关键点检测冠军)。The code will be released.

Bottom-up首先检测出测试图像中所有的关键点信息，然后分配给单个的人，这种方法一般准确率较差，但处理速度较快。代表性的方法有：

（1）HighResolution Net (HRNet，CVPR 2019/Proposed by MSRA&USTC)

Github: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

（2） CMU的Realtime Multi-Person Pose Estimation。

Github：https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation

（3） Newell（Hourglass的作者）的Associative embedding: End-to-end learning for joint detection and grouping.

Github：https://github.com/princeton-vl/pose-ae-train

Single Stage vs. Multiple Stages, 多阶段还是单阶段。这个分类在MSPN论文讲解的很清楚。
Multi-scale Feature Extraction，多尺度特征提取是所有方法中都要实现的一个过程，原因就在于不同尺度的图像对于不同关键点的检测效果是不同的。例如，在更低尺度的图像中，具有更丰富的语义信息，对头部等关键点的检测效果较好，在更高尺度的图像中，空间纹理信息更加丰富，对于检测踝关节等部位关键点的效果较好。因此，在所有人体关键点检测算法中，必不可少的一个过程就是多尺度特征的提取。