1、
作者首先解决的是关键点的检测,随后是关键点的空间位置refine,其次在关键点检测的网络上面加入了mul-scale的监督和mul-scale的fusion,来融合多个尺度的特征
2、
作者的refine步骤主要是对关节点位置进行normalization,将人的身体的方向进行upright的修正,对人体的四个枝干进行位置的修正,使得两条胳膊和两条腿的方向都是垂直向下,这样使得整体的人的方向得到了refine和normaliaztion
所以整体的normalization分为body normalization和limb的normalization。进行完norm之后,然后对关节点进行refine 最后将关节点返回到原来的坐标系统中,作者在FCN,resnet和hourglass上都做了norm和refine的实验
作者指出了进行normalization的必要性,能够降低人体内部的多样性实现姿态识别的不变性
3、
首先是部位检测器,运用FCN,然后两个阶段的norm操作。作者融合低层特征是基于score map,这样更能利用关键点的坐标信息
3.1
Joint Detection
此处采用多尺度的FCN网络,标签是以关键点为中心的一个圆,在这个圆里面是1,其他地方就是0,hourglass就是一个高斯分布
3.2
Normalization Network
3.2.1 Body normalization
让整个人体的方向变成upright
3.2.2
Limb normalization
让左右胳膊,左右腿都垂直向下,上图已经说明了这个操作
对于Normalization部分的网络,网络结构图
首先scoremap经过gauss blur的处理,然后每张图的最大值处就是就是对应的关节的部位的位置,然后计算R和C,也即旋转矩阵的参数,然后经过空间变换得到输出的map,softmax损失作为最终的损失
4、实验
作者实验很充分,做了很多对比实验,包括基于ResNet和hourglass模型加上他们的refine来进行比对,作者在MPII数据集上表现不太理想,主要是因为在MPII数据集上面,人体姿态大部分都已经normalization好了,他们的人体姿态分布并不是那么的困难,而作者的算法主要是应用于复杂姿态才这么做的