1、主要成果

  1. 提出 CPN(Cascaded Pyramid Network)CPN(Cascaded~Pyramid~Network)
  2. 探索不同因素对自顶向下的多人姿态估计的影响

2、细节

2.1、网络构成

  1. 使用基于 FPNFPN 检测器的算法检测人体边界框。(ROIAlignROIAlign 替代 ROIPoolingROIPooling
  2. GlobalNetGlobalNet:基于 FPNFPN 的网络结构定位易检测关键点
  3. RefineNetRefineNet:结合 FPNFPN 的各层特征推理难检关键点,基于训练损失,在线挑选难检关键点

网络结构如图 11 和图 22
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)

2.2、实验设置

评估标准:基于 mAPmAPOKSOKS (目标关键点相似度)。

裁剪策略:将检测器检出的边界框扩展到固定长宽比,然后从图像中剪切,不改变其长宽比,最后将剪切块调整到 256192256*192

数据增强:剪切后的图像块随机翻转,随机旋转(45°45°-45\degree-45\degree),随机缩放(0.71.350.7-1.35)。

输出处理

  1. 对预测热图使用高斯滤波
  2. 预测翻转图像关键点热图,并对两者求平均
  3. 将最大**向次大**偏移 14\frac{1}{4}
  4. 重新打分策略

2.3、实验结果

NMS:阈值设置越大越好,增加 APAPARARSoftNMSSoft-NMS 效果最好。
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)


人体检测AP和关键点AP的关系:随着检测框精度的提高,关键点检测 APAP 的增益越来越小。
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)


CPN的性能优势
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)


RefineNet 的设计
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)


利用不同金字塔层的结果比较
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
利用 C2C5C2-C5 所有金字塔层实现最优性能


在线难检关键点挖掘

难检关键点的数量设置:M=8M=8 实现最优性能
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
不同损失函数设计方案比较
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
最终采取 GlobalNet:L2 loss;RefineNet:L2 lossGlobalNet:L2~loss;RefineNet:L2~loss* 组合方案


裁剪图像大小不同方案比较
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
裁剪图像越大,性能越优,因为网络可以获取更多关键点位置信息,同时,在线难检关键点挖掘也该能够更好地起作用


在 MS COCO 上的实验结果
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)
论文笔记:Cascaded Pyramid Network for Multi-Person Pose Estimation(CPN)


3、总结

  1. 提出 CPNCPN 网络
    1. GlobalNetGlobalNet 进行一次整体的关键点检测,主要把易检关键点检出;整体结构类似于 FPNFPN。实验表明它优于单段 HourglassHourglass;使用 L2L2 损失,进行中间监督,实验表明中间监督有利于提升性能,尤其在配合难检关键点挖掘时更有效。
    2. RefineNetRefineNet 结合 FPNFPN 各层输出,充分利用上下文并且通过难检关键点挖掘来加强难检关键点检测。通过实验证明:结合 FPNFPN 所有层输出最有利于提升性能;难检关键点损失函数的设计有利于提升性能。
  2. 对影响多人姿态估计性能的因素进行分析
    人体检测器性能的影响NMS 阈值增加使检测框的 AP 和 AR 增加,从而提升关键点检测性能,Soft-NMS 是最优选择随着检测器 AP 和 AR 的增加,关键点 AP 提升越来越小,最终完全不变,说明难检关键点对提升多人姿态估计性能比人体检测器更关键
    裁剪图像块大小的影响图像块越大,性能越好,但是计算显著增加。可以发现 256192256*192256256256*256 性能相当,但是计算较少,因此作者选取了 256192256*192 的设置。

4、看法

作者的思路比较直观,先总体进行一轮关键点检测,检出易检关键点,之后通过 RefineNetRefineNet 充分挖掘 FPNFPN 提取的上下文信息,结合难检关键点挖掘技巧,精炼难检关键点从而提升算法性能

启发:难检关键点挖掘

缺点:不难发现,人体检测—>GlobalNetGlobalNet—>RefineNetRefineNet,网络FPNFPN 贯穿始终,网络结构比较复杂,存在冗余。可以考虑在较为精简的网络结构中实现所有模块。

相关文章: