A Multi-task Learning Convolutional Neural Network for Object Pose Estimation
(Proceeding of the IEEE International Conference on Robotics and Biomimetics)
1.端到端网络结构:目标检测与分割网络+位姿估计网络
1)目标检测与分割网络:采用Mask R-CNN网络
2)位姿估计网络:先使用VGG16进行特征提取,再与Mask R-CNN网络输出的语义分割掩膜进行融合再进行卷积和池化操作,最后将卷积后的特征图映射汇集到两个全连通层中,分别预测平移矩阵和旋转矩阵。同时,融合后对特征图进行向上采样和卷积操作,并最终得到与原输入图像相同尺寸的特征图,该输出期望与输入的掩模一致。(通过增加额外的分支的方法,让网络重点关注目标物体的图像区域,减小对其他非目标物体区域的关注度,进而提高位姿估计网络的稳定性)
2.损失函数设计:加权的损失函数
3.数据集:使用了YCB提供的三维模型合成的图像作为数据集
1)真实数据集(数量较少)
2)数据增强后的数据集(对图像进行诸如翻转、旋转、缩放比例、裁剪等操作形成新的图像,不适合用于位姿估计)
3)合成图像后的数据集(所需时间短,数量多)
4.评估标准: