1.总体
1.1 做了什么
这篇文章做了 6D-Pose Tracker。具体说是 a vision-based 6DPose Anchor-based Category-level Keypoint tracker。
作者提出了一种基于RGB-D的深度学习方法,能够实时的跟踪已知类别物体(已知类别,可以使没见过的物体)。通过学习用少量的三维关键点来简洁地表示一个物体,基于这些关键点,通过关键点匹配来估计物体在帧与帧之间的运动。这些关键点使用无监督端到端学习来实现有效的跟踪。
1.2 怎么做
6-PACK的输入是RGB-D信息,在原先估计的pose周围,采样anchor,基于这些anchor检测和跟踪3D category-based keypoints.然后利用两帧之间的关键点,通过最小二乘优化求解点集对齐的问题,计算出6D物体的位姿变化。
1.3 创新点
- 利用一种新的anchor机制产生keypoint,可以作用于同一类别的不同实例上
- 使用无监督方式去选择最有利于track的关键点
- 利用帧间关键点去估计姿态的inter-frame change
2 思路
2.1 问题的定义
定义类别级6D位姿跟踪定义为连续时间步间目标姿态变化的连续估计问题 。姿态变化,可以分解为 和 ,。然后,通过递归地应用最后估计的姿势变化来检索绝对姿势 :.
初始姿势是相对于标准帧的摄影机帧的平移和旋转,对于同一类别的所有实例定义类似 。
2.2 模型
首先在预测物体实例的周围剪裁一个放大的体积,将其归一化为一个单元;在体积块上生成anchor网格;之后使用DenseFusion计算M个点的几何与颜色融合特征;根据距离将它们平均池化成N个anchor特征;注意力机制网络使用anchor特征来选择最接近质心的点;用质心生成一组有序的关键点。将这种关键点生成方法应用在前一帧和当前帧,得到两组有序的关键点来计算帧间的位姿变化。
6-PACK算法在预测位姿周围生成anchor网格的过程中使用了注意力机制。每个点用RGB-D点单独特征的距离加权和来表示体积。使用anchor信息在新的RGB-D框架中找到物体的粗略质心,并指导对其周围关键点的后续搜索,这比在无约束的三维空间中搜索关键点效率更高。
2.3 Loss设计
1.
anchor, ground-truth position
2. multi-view consistency loss
多视图一致性损失只保证特征位置之间的帧间一致性,而不依赖于透视图或对象的可见部分。然而,这并不能保证这些位置对于我们的最终目标是最佳的,即估计姿势的变化.
3. a differentiable pose estimation loss
4. a differentiable pose estimation loss
和前一帧和当前帧中关键点的质心
5 separation loss
6.silhouette consistency loss
7. centroid loss
3D Keypoint Generation for Classes with Symmetry Axes
a coordinate system transformation ρ() that transforms the coordinates of points into a space that is rotation-invariant around the axis of symmetry