ICRA上的一篇文章,提出了一种检测三维物体关键点检测以及6 DoF位姿估计的方法,可以用于instance- and category-based 的场景。

首先采用Faster R-CNN检测得到目标的2D bb, 然后在执行所提出的方法。所使用的网络结构是stacking hourglass,来源于human pose estimation,与cornetNet中的backbone有些类似。网络的输入是RGB图像,输出是一组heatmaps, 每个关键点对应一个heatmap。每个heatmap的真值是一个以关键点真值为中心,方差为1的高斯仿真得到标签图像,目标函数是L2L_2损失。
论文笔记:6-DoF Object Pose from Semantic Keypoints

使用stacking hourglass有三个优点:

  1. 可以整合局部和全局信息
  2. stacking提供了一种迭代有效的过程,且对估计值可以求精;
  3. 中间监督可以用作有效的训练策略,尤其是在梯度消失的情况

文章中提到了在检测得到关键点后,直接使用PnP方法的两个问题:

  1. 由于遮挡或背景中的false detection,由网络预测得到的关键点可能被不精确的渲染;
  2. 目标精确的3D模型通常难以获得

文章中提出了一种deformable shape models方法解决这种问题。针对每一类物体,使用对应的3D CAD模型以及标注的关键点,构建可变形模型SR3×p\boldsymbol{S}\in \mathbb{R}^{3\times p}:

S=B0+i=1kciBi\boldsymbol{S} = \boldsymbol{B}_0 + \sum_{i=1}^kc_i\boldsymbol{B}_i

其中B0\boldsymbol{B}_0是一给定3D模型的平均形状,B1,,Bk\boldsymbol{B}_1, \dots , \mathbf{B}_k是由PCA计算得到形状分量。给定图像中检测的关键点,记为WR2×p\boldsymbol{W}\in \mathbb{R}^{2\times p},优化问题为:
minθ12ξ(θ)D12F2+λ2c22\min_{\theta}\frac{1}{2}\left \| \xi(\theta)\boldsymbol{D}^\frac{1}{2} \right \|^2_F + \frac{\lambda}{2}\| \boldsymbol{c} \|_2^2

相关文章:

  • 2022-01-19
  • 2021-12-14
  • 2021-11-29
  • 2021-05-24
  • 2021-10-06
  • 2021-08-25
  • 2021-12-11
  • 2021-04-09
猜你喜欢
  • 2021-10-26
  • 2021-06-27
  • 2021-06-24
  • 2021-08-18
  • 2021-04-28
  • 2022-12-23
  • 2021-04-13
相关资源
相似解决方案