CVPR19

之前的人体位姿工作一般都是想办法提升精度,但是模型复杂度较高,效率低。本文目的是构建一个轻量化的模型,有较小的计算成本,同时保持较高精度。

主要思路是将原始的hourglass做“瘦身”。

Fast Human Pose Estimation

这样网络参数量锐减,肯定是没办法充分学习的,精度会降低。因此解决方法是先预训练一个strong teacher network,其实就是原始的hourgalss,然后用这个teacher network来引导student network学习。最后test时,teacher network就丢掉了。

Fast Human Pose Estimation

 

这里训练loss由两部分组成,第一部分是pose distillation loss

Fast Human Pose Estimation

s和t分别代表student和teacher。

第二部分是传统loss:

Fast Human Pose Estimation

总的loss:

Fast Human Pose Estimation

最后思考为什么这个teacher network是有效的呢?

1.关节点坐标标签人工标记,存在一定错误,teacher net学习的坐标基于概率推断,一定程度上可以缓解标签错误。

2. 在复杂背景和遮挡情形下,teacher heatmap由更大的不确定性(uncertainty),这样会降低学习难度。

3. 有时无标记关节点坐标会被teacher net标记。

 

相关文章: