论文地址:https://arxiv.org/abs/1812.00324
项目地址:https://github.com/MVIG-SJTU/AlphaPose
我的天哪,真的不得不说,卢老师团队和何大神真的厉害。服。
without bells and wistles.
就是没用深度神经网络的trick,任何人都可以不通过各种精调,各种扩大训练集,各种hard online 各种学习率啊,参数啊什么的来回试,就可以达到比较好的效果。所以方法本质就是好的,是必然,而不是偶然。
AlphaPose升级了!上海交大MVIG组(卢策吾团队)构建了CrowdPose数据集,用来衡量算法在拥挤场景中的性能。同时提出了一个高效的算法来解决拥挤人群中的姿态估计问题,实验结果远高于当前最好的算法。
CrowdPose——拥挤人群姿态估计数据集
公开数据集,如MPII,MSCOCO和AI Challenger。通常采集自日常的生活场景,缺乏拥挤人群场景的数据。
主流数据集的拥挤场景分布如下图所示,非拥挤数据占据了绝大部分比例。对于由数据驱动的深度学习方法来说,数据集的分布不均衡,意味着算法性能的不均衡。CrowdPose数据集具有近似均匀分布图。
实时全局竞争匹配算法
在拥挤人群的场景下,传统的二步法模型往往会失效。主要原因在于:人群过于密集,重合程度太高,每个人的位置难以用人体检测框表示。全局竞争匹配算法减少了姿态估计模型对于人体框的依赖,同时提高了模型对于复杂人体场景的鲁棒性,在拥挤场景中的表现超越了现有的方法。
本研究中的全局竞争匹配算法概览。模型对于每个检测到的人体框输出一系列候选关键点。人体实例与关键点实例构建成一个稀疏图模型。通过求解稀疏图模型的最佳匹配问题,可得到全局最优的人体姿态估计方案,对密集拥挤的场景有很强的鲁棒性。
研究者们设计了一个关节点候选损失函数,通过控制模型输出响应程度不同的多峰值热度图,在人体框不准确的情况下,模型尽可能地输出候选关节点可能的位置。
在得到每个人体框的候选关节点后,通过聚类与链接,消除冗余结果的同时,构建出一个人体实例-候选关节的图模型。该图模型表征了人体实例与每个关节点之间的连接关系与概率。
借助此模型,人体姿态估计问题可转化成图模型中的最佳匹配问题。由于人体姿态问题的特殊,该图模型具有很强的稀疏性,经过研究者们的分析,优化匹配问题的时间复杂度与传统的NMS算法相当。
该方法由于建立了一个全局的图模型,在匹配过程中考虑到了整体的连接方式,因此能很好地改善了二步法中缺乏全局视野的不足。