Dense attentionseg segment hands from interacted objects using depth input

Abstract

我们提出了一种基于dnn的实时技术，从深度输入中分割手和物体的相互作用运动。
我们的模型被称为DensAtentionSeg，它包含一个密集注意机制，以融合不同规模的信息，并通过跳跃连接提高结果质量。
我们在模型训练中引入了一个轮廓损失，这有助于生成准确的手和物体边界。

Introduction

许多现有的作品都将RGB图像作为输入。然而，RGB图像很容易受到手部皮肤、交互对象的颜色和照明条件的影响，这为手部相关应用增加了固有的差异。
我们还提出了一种密集的注意力结构，以融合不同尺度的信息并引导跳跃连接。
注意机制在cv和nlp中已经被证明是有效的，它们经常计算编码器在seq-to-seq学习或输入特征图的不同区域中的注意权重。
我们在不同的特征尺度上建立了一种注意力机制，它不仅传递了更粗的语义，而且还传递了更精细的形状和边缘信息，我们称之为密集注意力。
我们还提出了一种新的轮廓损失方法，它强调了物体轮廓，并大大提高了最终的效果，特别是针对这一精确比例的手部物体分割工作而设计的，不会降低推理速度。
我们的贡献可以总结如下：

我们介绍了一个大型的、用于手部分割的、使用深度图的对象交互数据集，以及一种自动注释方法；
我们提出了一种编码器-解码器体系结构，该结构具有针对手部分割任务的密集关注机制。
我们提出了轮廓定义策略，显著提高了分割结果的准确性。

Related Work

颜色与深度

Bambach等人通过传统方法和神经方法的结合来实现以自我为中心的手部分割。
康采用了一种简单的分割方法，即在手部跟踪工作中使用黑色腕带。

手部与物体交互

Kang 提出了一种两阶段RDF来分割手部和物体的深度。他们的解决方案运行速度很快，而且准确度也很高。他们的大多数数据集样本缺乏手和对象细节的特写信息。
Urooj使用高性能网络来分割手部。但他们采用了RGB图像作为输入。

数据集

班巴赫介绍了用于手工任务的egohands，包括基于RGB图像的分割总共包括4.8K帧。
Zimmermann和Brox提出了一个更大的彩色图像数据集，它有大约44K个样本。
汤普森等人发布的纽约大学手势数据集，其中包含约6公里深的帧，但缺乏对象交互。
康收集了27k张深度图像进行分割，但大多数数据集样本没有显示手的最终结构。

基于语义分割的网络

Long等人提出了完全卷积神经网络。
Ronneberger等人设计了一个编码解码结构，在随后的几年中广泛使用。

InterSegHandsDataset

我们的数据库包含各种手-物交互运动的深度图像和深度图像的相应手掩模。
我们使用Intel Realsense SR300采集手部的深度图像。为了满足高分辨率的要求，我们保留了640×480的最大深度图像尺寸。
在对齐颜色和深度图像后，我们将手部区域的固定深度范围裁剪为16厘米，并丢弃背景。
我们将彩色图像转换为HSV空间，并分析线性阈值限制。为了降低噪声，我们分别对手和物体的二元掩模进行形态滤波。
由于无法完美对齐，我们采用轮廓过滤步骤：
我们总共收集了51912对深度图和对应的Ground Truth，其中有28个不同的相互作用对象。整个数据集分成46720对进行训练，5192对进行验证。

DenseAttentionSeg

我们提出了从深度输入实现实时手部分割的密集度网络，这是基于许多分割任务中常用的编码器-解码器结构。
我们增加了一个由密集连接的注意力结构驱动的解码器来融合编码器所学习到的所有特征尺度，并逐步重建分割掩模。
编码器基于deeplabv3+，以stride-16 resnet-50[21]作为网络主干，并结合了深黑色空间金字塔池（aspp）。
随着网络的不断深入，特征地图的步幅越来越大，而尺寸越来越小。我们选择一些中间特征映射作为不同的级别，从级别1到级别N。具体来说，我们在Deeplabv3中选择5个中间特征映射，以及ASPP的最终输出，因此n=6。
我们提出了一种注意机制，指导各个层次根据不同尺度的信息调整特征。
我们在操纵i级时，则通过逐级元素相乘收集i-1级、i-2级...1级的较低级别，并用于建立最终的注意，将形状和边缘特征信息传递给i级。
由于较低级别具有不同数量的特征通道，且尺寸大于i级，因此所有的功率级由挤压网压缩，在元素相乘前由双线性下采样层向下采样。同样，在I+1、I+2、…、N级采用双线性上采样，认为粗注意传递语义特征信息。
挤压网可以将输入特征映射的通道挤压到k，这不仅降低了计算成本，而且还为不同级别的用户提供了统一的通道。挤压网包含一个1X1和一个3X3卷积层，两个卷积层的输出通道均为K。
我们采用了软最大交叉熵损失作为我们的基本训练损失。
此外，我们还采用轮廓损失来修复手和物体的边缘。首先，使用Sobel运算符提取网络输出逻辑和地面真值标签的边缘，这可以通过卷积层实现。Sobel操作定义如下：

Conclusion

我们已经提出了一个基于深度图像的52k级的手部对象分割数据集-节段间数据集，以及一个深度模型-密集度来执行交互运动的手部对象分割。
我们的densetationseg包含一个密集的注意力机制，将所有级别的功能融合在一起，以引导编码器和解码器之间的跳跃连接，以及一个轮廓损失，有助于训练模型，以获得更精确的手边和对象边界结果。