使用深度学习特征的 SLAM 系统？答案

【问题标题】：SLAM system that uses deep learned features?使用深度学习特征的 SLAM 系统？
【发布时间】：2018-10-05 09:49:27
【问题描述】：

有没有人尝试过开发一个使用深度学习特征而不是经典的AKAZE/ORB/SURF 特征的 SLAM 系统？

浏览最近的计算机视觉会议，似乎有不少关于成功使用神经网络来提取特征和描述符的报告，并且基准测试表明它们可能比经典的计算机视觉等效物更强大。我怀疑提取速度是个问题，但假设一个有不错的 GPU（例如 NVidia 1050），那么构建一个实时 SLAM 系统是否可行，例如在 640x480 灰度图像上以 30FPS 运行，具有深度学习的特征？

【问题讨论】：

标签： computer-vision conv-neural-network feature-extraction feature-detection slam

【解决方案1】：

这对于评论来说有点太长了，所以这就是我发布它作为答案的原因。

我认为这是可行的，但我不知道这会有什么用。这是为什么（如果我错了，请纠正我）：

在大多数 SLAM 管道中，精度比长期稳健性更重要。 您显然需要精确的特征检测/匹配才能获得可靠的三角测量/捆绑（或任何等效方案你可能会使用）。然而，神经网络提供的高水平鲁棒性只需要在长时间间隔进行重新定位/闭环的系统（例如需要在不同季节进行重新定位等）。即使在这种情况下，由于您已经拥有 GPU，我认为使用场景的光度（甚至只是几何）模型进行定位会更好。
对于神经网络检测到的特征，我们没有任何可靠的噪声模型。我知道有一些有趣的作品（Gal、Kendall 等。 .) 用于在深度网络中传播不确定性，但这些方法对于部署在 SLAM 系统中似乎有点不成熟。
深度学习方法通常适用于初始化系统，它们提供的解决方案需要改进。它们的结果过于依赖训练数据集，往往会被“命中”和错过”在实践中。所以我认为你可以相信他们得到一个初步的猜测，或者一些约束（例如就像在姿势估计的情况下：如果你有一个随时间漂移的几何算法，那么你可以使用神经网络的结果来约束它们。但我认为没有前面提到的噪声模型会使这里的融合有点困难......）。

所以是的，我认为它是可行的，并且您可能通过仔细的工程和调整产生一些有趣的演示，但我不相信它在现实生活中。

【讨论】：

感谢 Ash，所以，如果我正确理解了您的答案，根据您的经验，深度学习的特征除了无法找到足够的噪声模型外，还存在精度问题。很高兴知道。顺便说一句，我们曾在某个时候半心半意地尝试使用学习深度来初始化 SLAM 系统，但最终放弃了它。我们在几何特征方面也比在光度方面取得了更大的成功。
@DanielDanciu 是的，这就是我目前的想法......我可以问一些关于你为什么放弃基于学习深度的初始化的细节吗？我只是好奇你是如何尝试进行这种融合的（比如是某种受约束的捆绑调整，还是只是使用这些深度值进行初始化，然后进行某种几何细化？）......是的，我同意我所说的关于使用光度模型不是很聪明（特别是对于长时间操作，感谢纠正我。），但我认为几何模型会很好（如构建模型等）。
重新深度集成：在某些时候，我们使用深度过滤器来细化 3D 地图点的深度，如下所述：rpg.ifi.uzh.ch/docs/TRO17_Forster-SVO.pdf。可以使用预测深度来初始化深度过滤器。我们对此进行了一些尝试，但它似乎不是一条有前途的道路（与简单地通过三角化直接或几何匹配进行初始化相比），所以我们放弃了它。实际上，我们最终放弃了整个深度过滤的想法，而是简单地使用了三角剖分+结构束调整。