基于深度学习的位姿估计方法

A Multi-task Learning Convolutional Neural Network for Object Pose Estimation
（Proceeding of the IEEE International Conference on Robotics and Biomimetics）
1.端到端网络结构：目标检测与分割网络+位姿估计网络
1）目标检测与分割网络：采用Mask R-CNN网络
2）位姿估计网络：先使用VGG16进行特征提取，再与Mask R-CNN网络输出的语义分割掩膜进行融合再进行卷积和池化操作，最后将卷积后的特征图映射汇集到两个全连通层中，分别预测平移矩阵和旋转矩阵。同时，融合后对特征图进行向上采样和卷积操作，并最终得到与原输入图像相同尺寸的特征图，该输出期望与输入的掩模一致。（通过增加额外的分支的方法，让网络重点关注目标物体的图像区域，减小对其他非目标物体区域的关注度，进而提高位姿估计网络的稳定性）

2.损失函数设计：加权的损失函数
基于深度学习的位姿估计方法
3.数据集：使用了YCB提供的三维模型合成的图像作为数据集
1）真实数据集（数量较少）
2）数据增强后的数据集（对图像进行诸如翻转、旋转、缩放比例、裁剪等操作形成新的图像，不适合用于位姿估计）
3）合成图像后的数据集（所需时间短，数量多）

4.评估标准：
基于深度学习的位姿估计方法