论文笔记-A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection

昨天当作15天休息一天吧
那么今天就是论文阅读计划的第16天了

今天开始介绍目标检测相关的论文啦～

天池有一个将这篇论文的视频，感兴趣的朋友可以去看看：https://tianchi.aliyun.com/course/video?liveId=41223

一、背景

显著目标检测旨在估计图像区域的视觉意义，进而分割出显著目标。它已被广泛应用于许多领域，例如场景分类[29]、视觉跟踪[21]、人的重新识别[30]、前景图评估[10]、内容感知图像编辑[52]、光场图像分割[36]和图像字幕[14]等。

随着深度卷积神经网络的发展，大量基于深度卷积神经网络的方法[33，44，35，37，43，6，45，42，39，27，38，24，48]被提出用于RGB显著目标检测，并取得了令人满意的性能。然而，一些复杂的场景仍然没有解决，例如突出的对象与背景具有相似的外观，或者不同对象之间的对比度极低。在这些情况下，仅使用RGB图像提供的信息不足以很好地预测显著图。

最近得益于微软Kinect和英特尔RealSense设备，可以方便地获取深度信息。此外，深度图中描绘的稳定几何结构对于亮度和纹理的变化是鲁棒的，这可以为处理复杂环境提供重要的补充信息。

现有的三维显著目标检测方法主要集中在深度流和RGB流的跨模态融合上。他们没有深入探究深度图本身的效果。

二、现有方法存在的缺点

参数量过大
没有利用好深度图的潜在优点

三、研究内容

在这项工作中，我们设计了一个单流网络，直接使用深度图来指导RGB和深度之间的早期融合和中期融合，节省了深度流的特征编码器，实现了一个轻量级的实时模型。我们巧妙地从两个角度利用深度信息:(1)克服了因模式差异大而导致的不兼容问题，构建了一个单一的流编码器来实现早期融合，它可以充分利用ImageNet预先训练好的主干模型来提取丰富多样的特征。(2)我们设计了一种新的深度增强双注意模块(DEDA)，有效地为前/后背景分支提供空间滤波特征，使解码器能够最优地进行中间融合。此外，我们还提出了一个金字塔式的特征提取模块(PAFE)，用于精确定位不同尺度的物体。

四、贡献

提出了一个单流网络来实现早期融合和中期融合，它隐含地表达了编码器中的跨模态信息交互，并进一步明确地增强了解码器中的这种效果。（更少的参数量）
深度增强双向注意力模块，该机制利用度图来增强掩模引导的注意力，并为编码器计算前/后背景注意特征。（适应复杂的区域）
通过使用自我关注机制，我们提出了一个金字塔式的特征提取模块，它可以描述特征地图中任意两个位置之间的空间相关性。

五、方法

深度增强的双重注意力模块：
论文笔记-A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection
融合策略：

金字塔式的特征提取模块：论文笔记-A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection

这是一个结合RGB图像与深度图的一个示例～
联想是否可以将skeleton数据与其他数据结合呢？目前有结合使用了RGB图像的。