论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）

Cascaded Pyramid Network for Multi-Person Pose Estimation

1、主要成果
2、细节

2.1、网络构成
2.2、实验设置
2.3、实验结果

3、总结
4、看法

1、主要成果

提出 $CPN(Cascaded~Pyramid~Network)$
探索不同因素对自顶向下的多人姿态估计的影响

2、细节

2.1、网络构成

使用基于 $FPN$ 检测器的算法检测人体边界框。（ $ROIAlign$ 替代 $ROIPooling$ ）
$GlobalNet$ ：基于 $FPN$ 的网络结构定位易检测关键点
$RefineNet$ ：结合 $FPN$ 的各层特征推理难检关键点，基于训练损失，在线挑选难检关键点

网络结构如图 $1$ 和图 $2$ 。
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）

2.2、实验设置

评估标准：基于 $mAP$ 的 $OKS$ （目标关键点相似度）。

裁剪策略：将检测器检出的边界框扩展到固定长宽比，然后从图像中剪切，不改变其长宽比，最后将剪切块调整到 $256*192$ 。

数据增强：剪切后的图像块随机翻转，随机旋转（ $-45\degree-45\degree$ ），随机缩放（ $0.7-1.35$ ）。

输出处理：

对预测热图使用高斯滤波
预测翻转图像关键点热图，并对两者求平均
将最大**向次大**偏移 $\frac{1}{4}$
重新打分策略

2.3、实验结果

NMS：阈值设置越大越好，增加 $AP$ 和 $AR$ 。 $Soft-NMS$ 效果最好。
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）

人体检测AP和关键点AP的关系：随着检测框精度的提高，关键点检测 $AP$ 的增益越来越小。
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）

CPN的性能优势
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）

RefineNet 的设计
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）

利用不同金字塔层的结果比较
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）
利用 $C2-C5$ 所有金字塔层实现最优性能

在线难检关键点挖掘

难检关键点的数量设置： $M=8$ 实现最优性能
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）
不同损失函数设计方案比较

最终采取 $GlobalNet:L2~loss;RefineNet:L2~loss*$ 组合方案

裁剪图像大小不同方案比较
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）
裁剪图像越大，性能越优，因为网络可以获取更多关键点位置信息，同时，在线难检关键点挖掘也该能够更好地起作用

在 MS COCO 上的实验结果
论文笔记：Cascaded Pyramid Network for Multi-Person Pose Estimation（CPN）

3、总结

提出 $CPN$ 网络
1. $GlobalNet$ 进行一次整体的关键点检测，主要把易检关键点检出；整体结构类似于 $FPN$ 。实验表明它优于单段 $Hourglass$ ；使用 $L2$ 损失，进行中间监督，实验表明中间监督有利于提升性能，尤其在配合难检关键点挖掘时更有效。
2. $RefineNet$ 结合 $FPN$ 各层输出，充分利用上下文并且通过难检关键点挖掘来加强难检关键点检测。通过实验证明：结合 $FPN$ 所有层输出最有利于提升性能；难检关键点损失函数的设计有利于提升性能。
对影响多人姿态估计性能的因素进行分析
人体检测器性能的影响：NMS 阈值增加使检测框的 AP 和 AR 增加，从而提升关键点检测性能，Soft-NMS 是最优选择。随着检测器 AP 和 AR 的增加，关键点 AP 提升越来越小，最终完全不变，说明难检关键点对提升多人姿态估计性能比人体检测器更关键
裁剪图像块大小的影响：图像块越大，性能越好，但是计算显著增加。可以发现 $256*192$ 和 $256*256$ 性能相当，但是计算较少，因此作者选取了 $256*192$ 的设置。

4、看法

作者的思路比较直观，先总体进行一轮关键点检测，检出易检关键点，之后通过 $RefineNet$ 充分挖掘 $FPN$ 提取的上下文信息，结合难检关键点挖掘技巧，精炼难检关键点从而提升算法性能。

启发：难检关键点挖掘

缺点：不难发现，人体检测—> $GlobalNet$ —> $RefineNet$ ，网络 $FPN$ 贯穿始终，网络结构比较复杂，存在冗余。可以考虑在较为精简的网络结构中实现所有模块。