文章地址链接:arxiv
百度研究院和香港科技大学联合出品的一篇单人pose检测文章.主要创新点有两个:
- 提出了Cascade Prediction Fusion网络用来预测关键点
- 提出了Pose Graph Neural Network, 用来对1预测的关键点进行修正
第二个创新点用到了GRU及一些图的知识, 不是很了解,重点讲下第一个创新点.
现有的pose estimation网络,自从hourglass及cpm提出之后,主流的思想都变成了设计一个特征提取更好的backbone网络 + multi-stage 的pose estimation网络. 例如hourglass, 是将一个一个的hourglass module串联起来, 上一个hourglass module的输出包括两个, 一个是单纯的featuremap输出, 另外一个生成的对应的heatmap输出. 这两个输出concate一起之后, 作为下一个hourglass module的输入. 更有名的比如openpose, 也是多个stage的串联, 上一个stage的输出, 包括featuremap和heatmap都会concate一起后作为下一个stage的输入. 目前多个stage的网络设计,虽然内部实现不一样, 但基本都是做类似处理, 把上一个stage的输出集中在一起作为下一个stage的输入. 本文的做法不大一样,首先看CPF网络的整体流程图:
从上图可以看出, CPF网络仍然是multi-stage的形式, 但对pred heatmap做了不一样的处理. stage t 得到的heatmap不再是直接作为 stage t+1 的输入, 而是先经过 1x1 conv 增加 channel 数, 再和 stage t+1 的featuremap element-wise add之后, 再得到 stage t+1 的heatmap 输出. 文章说这么做可以最大程度的保留前面层网络提取到的位置信息, 用来辅助后面高层语义层提取的语义信息, 使得最终提取出来的heatmap的点更准确. 当然,文章没有做对比实验, 如果和hourglass stage 与 stage之间连接类似, 同样的参数下哪个效果更好.