1、

作者首先解决的是关键点的检测,随后是关键点的空间位置refine,其次在关键点检测的网络上面加入了mul-scale的监督和mul-scale的fusion,来融合多个尺度的特征

2、

作者的refine步骤主要是对关节点位置进行normalization,将人的身体的方向进行upright的修正,对人体的四个枝干进行位置的修正,使得两条胳膊和两条腿的方向都是垂直向下,这样使得整体的人的方向得到了refine和normaliaztion

所以整体的normalization分为body normalization和limb的normalization。进行完norm之后,然后对关节点进行refine 最后将关节点返回到原来的坐标系统中,作者在FCN,resnet和hourglass上都做了norm和refine的实验

作者指出了进行normalization的必要性,能够降低人体内部的多样性实现姿态识别的不变性

3、

Human Pose Estimation using Global and Local Normalization

首先是部位检测器,运用FCN,然后两个阶段的norm操作。作者融合低层特征是基于score map,这样更能利用关键点的坐标信息

3.1

Joint Detection

Human Pose Estimation using Global and Local Normalization

此处采用多尺度的FCN网络,标签是以关键点为中心的一个圆,在这个圆里面是1,其他地方就是0,hourglass就是一个高斯分布

3.2

Normalization Network

3.2.1 Body normalization

让整个人体的方向变成upright

Human Pose Estimation using Global and Local Normalization

3.2.2

Limb normalization

让左右胳膊,左右腿都垂直向下,上图已经说明了这个操作

对于Normalization部分的网络,网络结构图

Human Pose Estimation using Global and Local Normalization

首先scoremap经过gauss blur的处理,然后每张图的最大值处就是就是对应的关节的部位的位置,然后计算R和C,也即旋转矩阵的参数,然后经过空间变换得到输出的map,softmax损失作为最终的损失

4、实验

作者实验很充分,做了很多对比实验,包括基于ResNet和hourglass模型加上他们的refine来进行比对,作者在MPII数据集上表现不太理想,主要是因为在MPII数据集上面,人体姿态大部分都已经normalization好了,他们的人体姿态分布并不是那么的困难,而作者的算法主要是应用于复杂姿态才这么做的

相关文章: