《Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation》论文解读

人体姿态2019(七)Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

原文:Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
收录:CVPR2019


Abstract

       借助大规模的室内3D数据集和复杂网络结构,基于单视角的的3D人体姿态估计取得显著的进展。然而,对不同环境的通用性仍然是一个难题。

       在本文中,通过:① 人体姿态的 几何感知3D表示(geometry-aware 3D representation) 以及② 在训练阶段将多个视图输入到自动编码器模型中,仅使用2D关键点信息作为监督,除此之外还提出 视图合成框架 实现将人体姿态从一个视图合成到另一个视图,来学习视图之间共享的3D表示。为提高潜在3D表示的鲁棒性,进一步引入 一致性约束 来学习3D表示。

为什么使用几何感知3D表示?
       因为将学习到的 几何感知3D表示 映射到3D位姿 比 之前将2D坐标或者图像映射到3D位姿容易得多。


1. Introduction

人体姿态2019(七)Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation       弱监督学习不需要大量精确的3D注释。通过大量自然背景下的2D注释来训练3D注释。但需要面临着自然条件下不受约束的2D标注和实验室环境下受限的3D标注之间进行大范围的领域转换的难题;

       整个方法将2D骨架图作为中间媒介,而编码器-解码器的 latent code 就是几何感知3D表示。具体地说,首先将源图像和目标图像映射成2D骨架图,然后训练编码器-解码器从源骨架合成目标骨架。


2. Weakly-Supervised Geometry Representation

人体姿态2019(七)Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
 

Denotation Meaning
(Iti,Itj)(I_{t}^{i},I_{t}^{j}) 时间 tt 下不同视角 iijj 的相匹配图像
(Sti,Stj)(S_{t}^{i},S_{t}^{j}) 时间 tt 下的二进制骨架映射对,St(){0,1}(K1)×W×HS_{t}^{(·)}\in \{0,1\}^{(K-1)\times W\times H}

       在 图像—骨架映射 步骤中,输入相匹配的原图像(Iti,Itj)(I_{t}^{i},I_{t}^{j}),分别得到相应的K关节点热图 CtiCtjC_{t}^{i}、C_{t}^{j},之后从热图中构造相应的宽度为8像素2D骨架图,最后得到二进制骨架映射对(Sti,Stj)(S_{t}^{i},S_{t}^{j})
 
 

        通过视图合成来获得几何表示 步骤中,采用L2重建损失来学习,上图的

  • encoder ϕ\phi 的作用:将 StiGiS_{t}^{i}\rightarrow G_{i} ,即:将2D骨架图转化到隐式空间;
  • decoder ψ\psi 的作用:将 GijStjG_{ij}\rightarrow S_{t}^{j} ,即:将隐式空间转化到2D骨架图,其中 Gij=Gi×RijG_{ij}=G_{i}\times R_{i\rightarrow j}

人体姿态2019(七)Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

相关文章: