【论文学习】 CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark

我的天哪，真的不得不说，卢老师团队和何大神真的厉害。服。

without bells and wistles.

就是没用深度神经网络的trick，任何人都可以不通过各种精调，各种扩大训练集，各种hard online 各种学习率啊，参数啊什么的来回试，就可以达到比较好的效果。所以方法本质就是好的，是必然，而不是偶然。

AlphaPose升级了！上海交大MVIG组(卢策吾团队)构建了CrowdPose数据集，用来衡量算法在拥挤场景中的性能。同时提出了一个高效的算法来解决拥挤人群中的姿态估计问题，实验结果远高于当前最好的算法。

公开数据集，如MPII，MSCOCO和AI Challenger。通常采集自日常的生活场景，缺乏拥挤人群场景的数据。

主流数据集的拥挤场景分布如下图所示，非拥挤数据占据了绝大部分比例。对于由数据驱动的深度学习方法来说，数据集的分布不均衡，意味着算法性能的不均衡。CrowdPose数据集具有近似均匀分布图。

【论文学习】 CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark

实时全局竞争匹配算法

在拥挤人群的场景下，传统的二步法模型往往会失效。主要原因在于：人群过于密集，重合程度太高，每个人的位置难以用人体检测框表示。全局竞争匹配算法减少了姿态估计模型对于人体框的依赖，同时提高了模型对于复杂人体场景的鲁棒性，在拥挤场景中的表现超越了现有的方法。

本研究中的全局竞争匹配算法概览。模型对于每个检测到的人体框输出一系列候选关键点。人体实例与关键点实例构建成一个稀疏图模型。通过求解稀疏图模型的最佳匹配问题，可得到全局最优的人体姿态估计方案，对密集拥挤的场景有很强的鲁棒性。

研究者们设计了一个关节点候选损失函数，通过控制模型输出响应程度不同的多峰值热度图，在人体框不准确的情况下，模型尽可能地输出候选关节点可能的位置。

在得到每个人体框的候选关节点后，通过聚类与链接，消除冗余结果的同时，构建出一个人体实例-候选关节的图模型。该图模型表征了人体实例与每个关节点之间的连接关系与概率。

借助此模型，人体姿态估计问题可转化成图模型中的最佳匹配问题。由于人体姿态问题的特殊，该图模型具有很强的稀疏性，经过研究者们的分析，优化匹配问题的时间复杂度与传统的NMS算法相当。

该方法由于建立了一个全局的图模型，在匹配过程中考虑到了整体的连接方式，因此能很好地改善了二步法中缺乏全局视野的不足。