CPM论文笔记 - 爱码网

CPM论文笔记

0.绪论

什么是人体姿态估计？

人体骨骼关键点检测即Pose Estimation，主要检测人体的一些关键点，如关节，五官等，通过关键点描述人体骨骼信息；

CPM论文笔记

人体姿态估计面临的挑战

由于人体具有相当的柔性，会出现各种姿态和形状，人体任何一个部位的微小变化都会产生一种新的姿态，同时其关键点的可见性受穿着、姿态、视角等影响非常大，而且还面临着遮挡、光照、雾等环境的影响，除此之外，2D人体关键点和3D人体关键点在视觉上会有明显的差异，身体不同部位都会有视觉上缩短的效果（foreshortening），使得人体骨骼关键点检测成为计算机视觉领域中一个极具挑战性的课题。
相关数据集

LSP（Leeds Sports Pose Dataset）：单人人体关键点检测数据集，关键点个数为14，样本数2K，在目前的研究中基本上被弃用；

FLIC（Frames Labeled In Cinema）：单人人体关键点检测数据集，关键点个数为9，样本数2W，在目前的研究中基本上被弃用；

MPII（MPII Human Pose Dataset）：单人/多人人体关键点检测数据集，关键点个数为16，样本数25K；

MSCOCO：多人人体关键点检测数据集，关键点个数为17，样本数多于30W，目前的相关研究基本上还需要在该数据集上进行验证；

PoseTrack：最新的关于人体骨骼关键点的数据集，多人人体关键点跟踪数据集，包含单帧关键点检测、多帧关键点检测、多人关键点跟踪三个人物，多于500个视频序列，帧数超过20K，关键点个数为15。

1.CPM是什么？

首先，Pose Machines 是一种序列化的预测框架，可以学习信息丰富的空间信息模型

其次CPM是将 Convolutional Network (卷积神经网络)整合进 Pose Machines，以学习图像特征和图像相关的空间模型，估计人体姿态

总的来说，CPM是由全卷积网络组成的序列化结构，卷积网络直接在前一阶段的置信图(belief maps)操作，输出越来越精细化的关节点位置预计结果

2.摘要

综述：本论文将深度学习应用于人体姿态分析，同时用卷积图层表达纹理信息和空间信息。在2016年的MPII榜单中名列前茅。主要网络结构分为多个stage，各个阶段都有监督训练，避免过深网络难以优化的问题。通过改变卷积核大小来得到多个尺度输入的特征和响应，既能确保精度，又考虑了各个部件之间的远距离关系。其中第一个stage会产生初步的关键点的检测效果，接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入，进一步提高关键点的检测效果。

CPM论文笔记

从上图中可以看出，如果仅仅根据自身图像的特征进行预测往往会造成混乱，提供多部分上下文有助于解决歧义，同时增加迭代将收敛到一个更好的结果。

创新点：

通过卷积体系结构的顺序组合学习隐式空间模型
设计和训练这种体系结构的系统方法，以便为结构化预测任务学习图像特征和图像相关的空间模型，而不需要任何图形模型风格的推理
在MPII、LSP、FLIC数据集的baseline上取得了更先进的结果，并分析了在重复中间监督下联合训练多阶段架构的效果

3.本文方法

3.1 Pose Machines

姿态估计就是根据解剖学上的一些关键点，对一张图片上的每一个点进行建模，然后去预测这些关键点。Pose Machines就是一种序列化的预测框架，可以学习到丰富的空间信息。

约定一下符号表示 Z就是图片上的所有点(u,v)，Y={Y1……Yp}就是所有的P个关键点的集合，并且Yp属于Z。

3.2 Convolutional Pose Machines

CPM是由深度卷积架构所组成，该架构允许直接从数据中学习图像和上下文特征表示。CPM主要分为两个阶段：第一阶段(Keypoint Localization Using Local Image Evidence 利用局部图像证据的关键点定位)、第二阶段(具有学习的空间上下文特征的顺序预测)，接下来分辨阐述两个阶段的方法。

3.2.1 Keypoint Localization Using Local Image Evidence

CPM论文笔记

CPM的第一阶段仅从局部图像的原始信息来提取特征，可以从上图的Stage1中看出，一共包含了5个卷积层，再接2个1x1的卷积层构造出卷积网络的架构，每一层卷积核的大小如上图所示。

在实际的训练过程中，输入图像的大小是368x368，最后输出的大小为46x46x(P+1)，其中P是关键点的个数，由于背景的存在，所以要P+1

注：智能计算感受野、输出特征图大小

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TWSOJpmW-1605100185420)(C:\Users\pc\Desktop\cpm_pic\感受野.png)]

3.3 Sequential Prediction with Learned Spatial Context Features

CPM论文笔记

由于构型和外观存在较大差异，对于人体骨骼运动链较低的位置，准确度非常低。第二阶段设计的初衷就是，在预测一些比较难的部位的时候（比如：手肘），利用一些其它已经预测出的部位，或是该部位周围关键点信息的时候，往往能够帮助预测出这些部分，如下图所示的右手肘

CPM论文笔记

从该图也可以看到第二阶段的网络结构模型。分类器会接收到两部分的输出，一部分是来自上一阶段的特征输出，另一部分是来自对同片的特征提取，两部分的输出也是通过向量相连的方式，再传入到后续分类网络。

第二阶段，卷积网络为了尽可能的增大感受野，使用了3个11x11的卷积核，最后将感受野增值400x400，目的在于尽可能的去学习关节点内在的一些依赖关联关系，作者选择通过增大卷积核的方式来增大感受野也是为了控制整体的参数数量。在之后的实验中，也可以证明增大感受是可以提升最后的准确率。

3.3 Learning in Convolutional Pose Machines

上述卷积网络设计具有大量的深层架构，训练时很容易出现梯度消失的问题，所以CPM也要重视这个问题。每一个阶段的CPM都会被重复训练去预测每一个关键点的belief map(置信图)没在每一个真实的关键点附近构建高斯分布，然后损失函数就是去最小化

CPM论文笔记

整体的损失函数就是讲各个阶段的损失函数相加。

CPM论文笔记

损失函数是一个可分解的，可以通过中间阶段有效地实施监督，即使整个体系结构可以有很多层，也不会出现梯度消失的问题，中间损失函数会在每个阶段补充梯度

目录

0.绪论

1.CPM是什么？

2.摘要

3.本文方法

3.1 Pose Machines

3.2 Convolutional Pose Machines

3.2.1 Keypoint Localization Using Local Image Evidence

3.3 Sequential Prediction with Learned Spatial Context Features

3.3 Learning in Convolutional Pose Machines