论文笔记：6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints

1.总体

1.1 做了什么

这篇文章做了 6D-Pose Tracker。具体说是 a vision-based 6DPose Anchor-based Category-level Keypoint tracker。

作者提出了一种基于RGB-D的深度学习方法，能够实时的跟踪已知类别物体（已知类别，可以使没见过的物体）。通过学习用少量的三维关键点来简洁地表示一个物体，基于这些关键点，通过关键点匹配来估计物体在帧与帧之间的运动。这些关键点使用无监督端到端学习来实现有效的跟踪。

1.2 怎么做

6-PACK的输入是RGB-D信息，在原先估计的pose周围，采样anchor，基于这些anchor检测和跟踪3D category-based keypoints.然后利用两帧之间的关键点，通过最小二乘优化求解点集对齐的问题，计算出6D物体的位姿变化。

1.3 创新点

利用一种新的anchor机制产生keypoint，可以作用于同一类别的不同实例上
使用无监督方式去选择最有利于track的关键点
利用帧间关键点去估计姿态的inter-frame change

2 思路

2.1 问题的定义

定义类别级6D位姿跟踪定义为连续时间步间目标姿态变化的连续估计问题。姿态变化 $\Delta p_t \in SE(3)$ ,可以分解为 $\Delta R_t \in SO(3)$ 和 $\Delta t_t \in R^3$ ， $\Delta p_t = [\Delta R_t | \Delta t_t]$ 。然后，通过递归地应用最后估计的姿势变化来检索绝对姿势： $p_t = \Delta p_t \cdot p_{t-1} = \Delta p_t \cdot \Delta p_{t-1} \cdot \cdot \cdot p_0$ .
初始姿势是相对于标准帧的摄影机帧的平移和旋转，对于同一类别的所有实例定义类似。

2.2 模型

首先在预测物体实例的周围剪裁一个放大的体积，将其归一化为一个单元；在体积块上生成anchor网格；之后使用DenseFusion计算M个点的几何与颜色融合特征；根据距离将它们平均池化成N个anchor特征；注意力机制网络使用anchor特征来选择最接近质心的点；用质心生成一组有序的关键点。将这种关键点生成方法应用在前一帧和当前帧，得到两组有序的关键点来计算帧间的位姿变化。

6-PACK算法在预测位姿周围生成anchor网格的过程中使用了注意力机制。每个点用RGB-D点单独特征的距离加权和来表示体积。使用anchor信息在新的RGB-D框架中找到物体的粗略质心，并指导对其周围关键点的后续搜索，这比在无约束的三维空间中搜索关键点效率更高。

论文笔记：6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints

2.3 Loss设计

1. $L_{anc} = \frac {1}{N} \sum_i c_i(||a_i - o_{gt}||_2 - \beta)$

$\beta = min (||a_i - o_{gt}||_2),i=1 ... N$
$a_i$ anchor, $gt$ ground-truth position

2. multi-view consistency loss $L_{mvc} = \frac{1}{K}||k_i^t - [\Delta R_t^{gt}|\Delta t_t^{gt}]\cdot k_i^{t-1}||$

$[\Delta R_t^{gt}|\Delta t_t^{gt}] = \Delta_t^{gt}$
多视图一致性损失只保证特征位置之间的帧间一致性，而不依赖于透视图或对象的可见部分。然而，这并不能保证这些位置对于我们的最终目标是最佳的，即估计姿势的变化.

3. a differentiable pose estimation loss $L_{tra} = ||(\hat k^t - \hat k^{t-1} - \Delta t_t^{gt})$

4. a differentiable pose estimation loss $L_{rot} = 2arcsin(\frac {1}{2\sqrt 2}||\Delta \hat R^t - \Delta R_t^{gt})$

$\hat k^t$ 和 $\hat k^{t-1}$ 前一帧和当前帧中关键点的质心

5 separation loss $L_{sep}$

6.silhouette consistency loss $L_{sil}$

7. centroid loss $L_{cen}$

3D Keypoint Generation for Classes with Symmetry Axes

a coordinate system transformation ρ() that transforms the coordinates of points into a space that is rotation-invariant around the axis of symmetry
论文笔记：6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints

1.总体

1.1 做了什么

1.2 怎么做

1.3 创新点

2 思路

2.1 问题的定义

2.2 模型

2.3 Loss设计

1.Lanc=1N∑ici(∣∣ai−ogt∣∣2−β)L_{anc} = \frac {1}{N} \sum_i c_i(||a_i - o_{gt}||_2 - \beta)Lanc​=N1​∑i​ci​(∣∣ai​−ogt​∣∣2​−β)

2. multi-view consistency loss Lmvc=1K∣∣kit−[ΔRtgt∣Δttgt]⋅kit−1∣∣L_{mvc} = \frac{1}{K}||k_i^t - [\Delta R_t^{gt}|\Delta t_t^{gt}]\cdot k_i^{t-1}||Lmvc​=K1​∣∣kit​−[ΔRtgt​∣Δttgt​]⋅kit−1​∣∣

3. a differentiable pose estimation loss Ltra=∣∣(k^t−k^t−1−Δttgt)L_{tra} = ||(\hat k^t - \hat k^{t-1} - \Delta t_t^{gt})Ltra​=∣∣(k^t−k^t−1−Δttgt​)

4. a differentiable pose estimation loss Lrot=2arcsin(122∣∣ΔR^t−ΔRtgt)L_{rot} = 2arcsin(\frac {1}{2\sqrt 2}||\Delta \hat R^t - \Delta R_t^{gt})Lrot​=2arcsin(22​1​∣∣ΔR^t−ΔRtgt​)

5 separation loss LsepL_{sep}Lsep​

6.silhouette consistency loss LsilL_{sil}Lsil​

7. centroid loss LcenL_{cen}Lcen​