1、人体姿态估计简介

人体姿态估计(Human Posture Estimation),是通过将图片中已检测到的人体关键点正确的联系起来,从而估计人体姿态。

人体关键点通常对应人体上有一定自由度的关节,比如颈、肩、肘、腕、腰、膝、踝等,如下图所示。

深度学习-人体姿态估计
深度学习-人体姿态估计

2. 人体姿态估计研究现状

人体姿态估计(Human Pose Estimation)也称为人体关键点检测(Human Keypoints Detection)。

通过对人体关键点在三维空间相对位置的计算,来估计人体当前的姿态。

进一步,增加时间序列,看一段时间范围内人体关键点的位置变化,可以更加准确的检测姿态,估计目标未来时刻姿态,以及做更抽象的人体行为分析,例如判断一个人是否在打电话等。

对于人体姿态估计的研究,大致可做如下分类

  1. RGB vs RGBD

后者多一项Depth信息,常用于3D人体姿态估计的研究。

  1. 2D Human Pose Estimation vs 3D Human Pose Estimation

  2. Singe Person vs Multiple Persons

  3. Image vs. Video

对于Video,除了人体姿态估计算法外,要增加对于关键点的Tracking(追踪)的研究。

  1. 深度学习方法

Top-down vs. Bottom-up

以上为深度学习方法中两个主要的研究思路。

Top-down首先利用目标检测算法检测出单个人,然后对proposal进行关键点的检测。这种方法一般具有较高的准确率但是处理速度较低。代表性的方法有:

(1) Stacked Hourglass Network(半壁江山)

Github: https://github.com/Naman-ntc/Pytorch-Human-Pose-Estimation (Pytorch)

https://github.com/wbenbihi/hourglasstensorlfow (Tensorflow)

(2) Convolutional Pose Machine

Github: https://github.com/timctho/convolutional-pose-machines-tensorflow (Tensorflow)

https://github.com/JindongJiang/WeightedLoss_Convolutional_Pose_Machines_PyTorch (Pytroch)

(3) Cascaded Pyramid Network

Github: https://github.com/chenyilun95/tf-cpn

(4) Simple Baseline (proposed by MSRA)

Github: https://github.com/Microsoft/human-pose-estimation.pytorch

(5) Multi-Stage Pose Network (MSPN,由Face++提出,2018年coco 关键点检测冠军)。The code will be released.

Bottom-up首先检测出测试图像中所有的关键点信息,然后分配给单个的人,这种方法一般准确率较差,但处理速度较快。代表性的方法有:

(1)HighResolution Net (HRNet,CVPR 2019/Proposed by MSRA&USTC)

Github: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

(2) CMU的Realtime Multi-Person Pose Estimation。

Github:https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation

(3) Newell(Hourglass的作者)的Associative embedding: End-to-end learning for joint detection and grouping.

Github:https://github.com/princeton-vl/pose-ae-train

  1. Single Stage vs. Multiple Stages, 多阶段还是单阶段。这个分类在MSPN论文讲解的很清楚。

  2. Multi-scale Feature Extraction,多尺度特征提取是所有方法中都要实现的一个过程,原因就在于不同尺度的图像对于不同关键点的检测效果是不同的。例如,在更低尺度的图像中,具有更丰富的语义信息,对头部等关键点的检测效果较好,在更高尺度的图像中,空间纹理信息更加丰富,对于检测踝关节等部位关键点的效果较好。因此,在所有人体关键点检测算法中,必不可少的一个过程就是多尺度特征的提取。

相关文章: