Surfel-based Mapping: SemanticFusion

摘要

使用视觉感知得到更鲁棒，准确和细节的建图已经被证明是移动机器人在许多应用中的促成因素。对于机器人智能和用户交互的下一个阶段，地图需要从几何和外观上进行拓展——它们必须包含语义。McCormac等人通过组合CNNs和SOTA SLAM系统ElasticFusion，提供了室内RGB-D视频序列间的长期稠密对应。这些对应允许多视角的CNN的语义预测通过概率融合到地图中。这不仅提供了一个有效的语义3D地图，而且在NYUv2数据集上展示出融合多个预测提高了2D单帧语义标号的准确性。系统能够实时运行，达到25Hz。

1. 介绍

包含丰富语义信息的稠密地图能够比纯几何地图具有更广泛的功能。例如，对于家庭机器人，一个简单的抓取任务需要知道它是什么，以及它位于哪里。作为一个特定的例子，一个与具有空间和语义理解能力的机器人交流的用户也许发出如下命令“把离你右侧最近桌子处的咖啡拿过来”。类似地，询问地图中语义信息的能力对于人类来说非常有用，提供了用于回答关于提前建立地图的语义信息的数据库；“我们在会议室里有几把椅子？讲台到它最近的椅子距离多远？”在本工作中，我们组合了来自SOTA SLAM系统ElasticFusion[26]的几何信息和最近使用CNNs的语义分割的发展。

我们的方法使用SLAM系统来提供2D帧到全局一致3D地图之间的对应。这允许来自多视角的CNN的语义预测被概率地融合为一个稠密的语义标号地图，如图1所示。ElasticFusion非常适合融合语义标号，因为它的基于面元的表面表示在小和大回环之后被自动分解来保持一致，这将会经常发生在典型的交互中。当面元表示被分解和修正后，独立的面元保持与真实世界实体的关联，并且这允许每帧语义预测在大视角变化时的的长期融合。地图的几何本身也能够提供有用的信息，被用于规范最终的预测。

Surfel-based Mapping: SemanticFusion

图1. 我们系统的输出。在左侧，是来自NYUv2测试集中视频序列的一个基于稠密面元的重建。在右侧，是相同序列具有语义标号的地图。

我们的流程被设计为在线工作，并且即使我们没有专注于表现，每个成分的效率仍然能够达到交互系统的级别（约等于25Hz）。结果的地图也能够被用于作为更昂贵离线处理的基准来进一步同时提高几何和语义；但是这还没有在当前工作中进行探索。

我们在NYUv2数据集中评估系统的准确性，并展示了通过使用来自未标号原始视频的信息，我们可以提高使用单帧图片的分割结果。这意味着SLAM的使用不仅提供了有用的语义3D地图，而且提高了SOTA 2D单帧语义分割方法的表现。

NYUv2数据集没有被设计为全房间重建，并且没有考虑大视角变化。为了探索SemanticFusion具有更换完整重建的优点，我们发展了一个小的重建的办公室房间数据集，使用NYUv2语义类别标号。在该数据集中，我们见证了在分割准确性上相对单帧2D分割更显著的提高。这意味着该系统非常适合具有宽视角变化的更长时间的扫描，来辅助去除单视角2D语义的歧义性。

2. 相关工作

本工作和Stuckler等人[23]和Hermans等人[7]的工作最接近；两者目的都是建立室内场景中稠密语义标号的3D地图。他们都对即将来到的帧使用随机决策森林得到逐像素的标号预测，而我们利用最近在CNN中的发展，其提供SOTA准确率和实时运行表现。他们都在经典的贝叶斯框架中融合来自不同视角的预测。Stuckler等人[23]使用一个基于多分辨率面元地图的SLAM系统，能够以12.8Hz频率运行，但是不像我们的系统，他们不能维护单个全局语义地图，因为局部关键帧存储整合的语义信息，并且它们在每帧中都要进行图优化。Hermans等人[7]没有使用具有显式回环的全SLAM系统的能力：它们只使用相机跟踪配准参考帧的预测。它们的运行时间表现是4.6Hz，其不允许处理实时视频序列，而我们的系统能够在线交互处理。和我们一样，他们探索规范预测使用Krahenbuhl和Koltun[12]的全连接CRF推理方案来获得最终的语义地图。

之前Salas-Moreno等人的工作致力于创建一个全能力的SLMA系统，SLAM++[19]，其以物体的语义级别建图室内场景。但是，他们的方法限制于建立之前预先定义数据集中的物体。它也没有提供我们在本工作中致力提供的整个场景的稠密标号。此外，他们使用的匹配模板模型的特征是手工的而我们是以端到端方式在大训练数据集中学习的CNN特征。

其他大多数室内语义标号的方法或者专注于离线批处理[24][11]或者单帧2D分割，没有致力于提供一个语义标号的3D地图[3][20][15][22]。Valentin等人[24]使用一个CRF和一个来自TextonBoost的变体的逐像素标号来重建室内和室外的语义地图。这提供了全一致的3D地图，但是推理在整个网格中被执行一次，而不是在线地增量融合。Koppula等人[11]也解决了在一个完整3D地图中的问题，将地图的分割当做图模型的节点，并且使用手工几何和视觉特征作为边来推理最终的语义标号。在室外语义标号中，Vineet等人[25]生成一个增量3D重建从双目对中，并使用一个具有CRF的随机森林用于语义标号。但是他们也没有一个完整的具有闭环的同时维护一个全局一致结构的SLAM系统。

我们的语义建图流程受最近CNN在语义标号和分割任务中成功的启发[13][16][17]。CNNs已经被证实能够达到SOTA精度和高效的测试时间表现。它们已经展现出在大量数据集和数据模态中的能力，特别是RGB[17][16]，深度[1][6]和法向图[2][4][5]。在本工作中我们构建在Noh等人提出的CNN模型[17]基础上，但是我们修改它来利用直接可用的深度数据，并且不需要重大的额外预处理。

3. 方法

我们的SemanticFusion流程由三个独立的单元组成：一个实时的SLAM系统ElasticFusion，一个卷积神经网络，和一个贝叶斯更新方案，如图2所示。SLAM系统的角色是提供帧间对应，和一个全局一致的融合面元的地图。另外，CNN接收一张2D图片（对于我们的结构，它是RGB或者RGBD，对于Eigen等人[2]也包括法向量），并返回一组逐像素的类别概率。最终，一个贝叶斯更新方案对于每个面元跟踪类别概率分布，并使用SLAM提供的对应来更新这些基于CNN预测的概率。最终，我们也使用一个CRF规范化方案来使用地图的几何本身来提高语义预测[7][12]。接下来的章节详细描述每个部分。

Surfel-based Mapping: SemanticFusion

图2. 我们流程的综述。图片输入被用于产生一个SLAM地图，和一组概率预测地图（这里只展示了四个）。这些地图被融合到最终的稠密语义地图通过贝叶斯更新。

A. SLAM建图

我们选择ElasticFusion作为我们的SLAM系统（ mp3guy/ElasticFusion ）。对于每个即将到达的帧， Surfel-based Mapping: SemanticFusion ，ElasticFusion跟踪相机位姿通过一个组合的ICP和RGB对齐，来得到一个新的位姿，其中表示世界坐标系，表示相机坐标系。新的面元被添加到地图中使用该相机位姿，并且现存面元信息被组合和新的测量来精修它们的位置，法向量和颜色信息。额外的检查用于回环检测并行运行，并且地图被立即优化当闭环被检测到时。

分解图和基于面元的表示使得它们自然地适用于手头的任务，允许概率分布在回环过程中和面元绑定在一起，并且融合新的深度读数来更新面元的深度和法向量信息，不需要破坏面元，或者它潜在的概率。它以实时频率操作在VGA分辨率上，并且可以被用于交互的机器人应用中。我们维护许多默认参数在公开的应用中，深度截断从3m被扩展到8m来允许在3m范围之外的几何重建，并且我们不使用跟踪的RGB部分在NYUv2数据集中由于预处理产生的白色边界。

C. 增量语义标号融合

除了法向量和位置信息，我们地图 Surfel-based Mapping: SemanticFusion 中的每个面元（编号为）还存储一个在一组类别标号上的离散概率分布，。每个新生成的面元被初始化为一个语义类别上的均匀分布，因为我们没有先验信息作为它的隐式类别。

在预先设定帧数之后，我们使用图片 Surfel-based Mapping: SemanticFusion 执行一个CNN的前向传播。依赖CNN结构，这张图片可能包含任何RGB，深度，或者法向量的组合。给定第张图片的数据，CNN的输出以更简单的形式被解释为在类别标号上的逐像素独立的概率分布，其中 Surfel-based Mapping: SemanticFusion 表示像素坐标。

使用跟踪的相机位姿 Surfel-based Mapping: SemanticFusion ，我们关联每个面元到地图中的一个给定3D位置像素坐标可以通过相机投影得到，使用归一化变换矩阵并使用归一化3D坐标。这使得我们能够更新所有可见的面元集合通过对应的概率分布使用递归贝叶斯更新

Surfel-based Mapping: SemanticFusion (1)

其被逐面元应用到所有标号概率，最终通过常数 Surfel-based Mapping: SemanticFusion 进行归一化得到合适的分布。

SLAM对应关系允许我们准确地从多张图片中关联标号假设并以贝叶斯方式组合信息。接下来的章节讨论上述使用的独立性近似如何被缓和，允许语义信息空间传播当语义通过多个视角被融合时。

D. 地图规范化

我们探索使用地图几何来规范化预测通过使用全连接的CRF和高斯边缘势能到3D世界坐标系中的面元，如Hermans等人的工作[7][12]。我们不适用CRF来达到最终每个面元的预测，而是使用它增量地更新概率分布。在我们的工作中，我们对待每个面元作为图中的一个节点。算法使用平均场近似和一个消息传递方案来高效地推理近似最小化标号的Gibbs能量 Surfel-based Mapping: SemanticFusion 的隐变量，在一个全连接的图中，其中表示一个给定的标号对于编号为的面元。

能量 Surfel-based Mapping: SemanticFusion 由两部分组成，一元数据项是一个给定标号的函数，被参数化通过内在的面元的概率分布通过如上述所示融合多个CNN预测。成对的平滑项是图中两个连接的面元的标号的函数，被参数化通过地图的几何：

Surfel-based Mapping: SemanticFusion (2)

对于数据项，我们简单地使用被选择标号的概率的负对数对于一个给定的面元，

Surfel-based Mapping: SemanticFusion (3)

在由Krahenbuhl和Koltun提出的方案中[12]，平滑项被构建为 Surfel-based Mapping: SemanticFusion 个高斯边缘核的线性组合，在我们的例子中被给出通过波特模型，：

Surfel-based Mapping: SemanticFusion (4)

跟随之前的工作[7]我们使用两种成对势能：一个双线性势能尝试绑定较近的具有相似位置和外观的面元，和一个空间平滑势能，其强加平滑预测在相似法向量的区域中：

Surfel-based Mapping: SemanticFusion (5)

Surfel-based Mapping: SemanticFusion (6)

高斯边缘势能允许一个高效的平均场近似算法对于推理，甚至在一个全连接的CRF中。该算法的计算代价是线性于面元数量的，其在我们的SLAM系统中非常有用，甚至对于长期轨迹和数百万面元也能够适用。

我们选择单位标准方差 Surfel-based Mapping: SemanticFusion 在空间域中，在RGB颜色域中，弧度在角度域中。我们实验使用变化这些参数在重建的数据集中，但是这不会导致显著的提高。我们还维持了对所有的实验。这时Krahenbuhl和Koltun的公开应用http://www.philkr.net/home/densecrf中的默认参数[12]。