Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera

Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera即利用单深度摄像机实时重建两只交互手的手势和形状。也是在2019年SIGGRAPH大会上展示的。图10的左半部分展示的是一个安装在肩上的深度相机的AR装置的实时重建的一个图，而图的右半部分是重建的交互手的手势和形状的四个不同视角的视图。
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera
图10 基于深度相机的AR装置的实时重建手势与形状
Fig.10 Real-time reconstruction of gesture and shape of AR device based on depth camera
本节主要介绍的是论文中的利用单深度摄像机实时重建两只交互手的手势和形状系统的各部分功能概述。
4.1 Introduction
论文中提出的是一种无标记的手部姿态的估计，跟上一篇论文中的交互式数据手套的有标记不同。手部姿态识别在人机交互、增强和虚拟现实(AR/VR)、手语识别以及与心理学相关的身势语识别等应用领域都发挥着重要作用。但是现有的一些关于这种无标记的手部姿态估计大多都是只考虑单个手的处理问题。虽然也有很多方法考虑到了两只手的情况，但是大多局限于以下问题：
1)只工作于一些简单的交互场景比如说没有相互紧密接触的双手等场景。
2)由于计算成本高，实时性不好。
3)不能处理手与手之间的碰撞。
4)不能自动适应看不见的手的形状
5)严重依赖定制的专用硬件
而论文中的方法同时克服了以上五点限制，并提出了以下几点贡献：
1）提出了一种利用单深度摄像机实时跟踪两只相互作用的手的方法，同时能够估计手的形状并考虑到碰撞。
2）论文的方法是第一个利用物理模拟创建双手跟踪数据集的方法，该数据集包括姿态和密集的形状标注，同时避免双手间的穿透。
3）与现有的方法相比，鲁棒性更好，可靠性更高。
4.2 Overview
图示的是从单个深度摄像机获取数据并进行实时手部姿态和形状重建的流程。首先是深度图像和点云的输入，然后经过CoRN这个网络计算得到一个左手右手的分割图以及这个左右手对应映射关系的图，这个CoRN网络包含了两个Encoder-Decoder的结构。然后在姿态与形状拟合中通过能量最小化框架得到合适的手的形状模型与姿态并最后输出。
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera
图11 系统流程图
Fig.11 system flowchart
4.3 Data Generation
这一小节是关于数据集的合成以及组成部分的，论文中的方法是第一个利用物理模拟创建双手跟踪数据集的方法，该数据集包括姿态和密集的形状标注，同时避免双手间的穿透。图12中左半部分的是作者为了合成数据集，在虚拟场景中用两只交互手进行模拟的场景，而右上图和右下图分别是输出结果模拟的深度图和两只手的密集表示图。作者生成数据主要是两个步骤，从Mocap-Driven的手部模拟合成数据以及对真实数据进行注释。从Mocap-Driven的手部模拟合成数据指的是通过LeapMotion捕捉参与者的手部动作，作者通过让参与者在一个安全的距离下移动双手。然后在模拟中将这个安全距离减去，来产生这种紧密互动的双手之间的运动。通过实时运行手部模拟，行动者会收到即时的视觉反馈，从而能够模拟自然交互。最终作者记录了5个用户，一共合成了8万张图片，作为训练的数据。而带有分段注释的真实数据是因为如果只使用合成数据进行训练时，神经网络往往会过度拟合，因此可能不能很好地推广到真实的测试数据。作者将真实的数据使用body paint通过颜色分割获得可靠的标注。共捕捉了3个不同手型（一女两男），记录了每个受试者和不同视角(肩扛式摄像机和正面摄像机)约3000张图像，共记录19,926张图像。
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera
图11 合成数据集的场景图
Fig.11 A scenario diagram of a composite dataset
4.4 Neural Network Regressor
图12所示CoRN由两个堆叠的编解码网络组成的。层块的输出尺寸指定为高度×宽度×特征通道数。层块的颜色表示执行了哪些操作。蓝色代表的是使用步长为2的卷积进行下采样，绿色代表的是卷积，紫色代表的是使用步长为2的反卷积进行上采样。第一个编解码器用来学习分割任务，分割损失用softmax交叉熵表示，然后输出每个像素三个可能的类的概率（左手，右手和没有手），再送入到第二个编解码器，并返回每个像素RGB通道的手表面对应信息得到左右手对应映射关系，对应损失用平方欧氏距离表示。
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera
图11 CoRN
Fig.11 CoRN
图13是是通过给定一个深度图像作为输入，经过CoRN后得到的精确的分割图和密集的对应图。

图12 经过CoRN后得到的精确的分割图和密集的对应图
Fig.12 The precise segmentation diagram and the dense corresponding diagram obtained after CoRN
4.5 Comparison to the State of the Art
表2是论文中的方法与Tzionas在2016年发表的方法的比较，在二维像素误差的平均值和标准偏差方面，两种方法的误差都很小，但是Tzionas的方法误差更小一些。在实时性方面，论文中的方法接近30HZ的帧率，远远优于另一个方法，并且论文中的方法有手部姿势重建，而Tzionas等人的方法需要一个3D扫描的手模型。右边的图是这两种方法对于手部姿态估计在视觉上的比较，两种方法的估计姿态看不出明显的差异。
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera
表2 与最先进的水平相比
Tab.2 Comparison to the State of the Art