Cascaded Pyramid Network for Multi-Person Pose Estimation
1、主要成果
- 提出
- 探索不同因素对自顶向下的多人姿态估计的影响
2、细节
2.1、网络构成
- 使用基于 检测器的算法检测人体边界框。( 替代 )
- :基于 的网络结构定位易检测关键点
- :结合 的各层特征推理难检关键点,基于训练损失,在线挑选难检关键点
网络结构如图 和图 。
2.2、实验设置
评估标准:基于 的 (目标关键点相似度)。
裁剪策略:将检测器检出的边界框扩展到固定长宽比,然后从图像中剪切,不改变其长宽比,最后将剪切块调整到 。
数据增强:剪切后的图像块随机翻转,随机旋转(),随机缩放()。
输出处理:
- 对预测热图使用高斯滤波
- 预测翻转图像关键点热图,并对两者求平均
- 将最大**向次大**偏移
- 重新打分策略
2.3、实验结果
NMS:阈值设置越大越好,增加 和 。 效果最好。
人体检测AP和关键点AP的关系:随着检测框精度的提高,关键点检测 的增益越来越小。
CPN的性能优势
RefineNet 的设计
利用不同金字塔层的结果比较
利用 所有金字塔层实现最优性能
在线难检关键点挖掘
难检关键点的数量设置: 实现最优性能
不同损失函数设计方案比较
最终采取 组合方案
裁剪图像大小不同方案比较
裁剪图像越大,性能越优,因为网络可以获取更多关键点位置信息,同时,在线难检关键点挖掘也该能够更好地起作用
在 MS COCO 上的实验结果
3、总结
- 提出 网络
- 进行一次整体的关键点检测,主要把易检关键点检出;整体结构类似于 。实验表明它优于单段 ;使用 损失,进行中间监督,实验表明中间监督有利于提升性能,尤其在配合难检关键点挖掘时更有效。
- 结合 各层输出,充分利用上下文并且通过难检关键点挖掘来加强难检关键点检测。通过实验证明:结合 所有层输出最有利于提升性能;难检关键点损失函数的设计有利于提升性能。
- 对影响多人姿态估计性能的因素进行分析
人体检测器性能的影响:NMS 阈值增加使检测框的 AP 和 AR 增加,从而提升关键点检测性能,Soft-NMS 是最优选择。随着检测器 AP 和 AR 的增加,关键点 AP 提升越来越小,最终完全不变,说明难检关键点对提升多人姿态估计性能比人体检测器更关键
裁剪图像块大小的影响:图像块越大,性能越好,但是计算显著增加。可以发现 和 性能相当,但是计算较少,因此作者选取了 的设置。
4、看法
作者的思路比较直观,先总体进行一轮关键点检测,检出易检关键点,之后通过 充分挖掘 提取的上下文信息,结合难检关键点挖掘技巧,精炼难检关键点从而提升算法性能。
启发:难检关键点挖掘
缺点:不难发现,人体检测—>—>,网络 贯穿始终,网络结构比较复杂,存在冗余。可以考虑在较为精简的网络结构中实现所有模块。