昨天当作15天休息一天吧
那么今天就是论文阅读计划的第16天了
今天开始介绍目标检测相关的论文啦~
天池有一个将这篇论文的视频,感兴趣的朋友可以去看看:https://tianchi.aliyun.com/course/video?liveId=41223
一、背景
显著目标检测旨在估计图像区域的视觉意义,进而分割出显著目标。它已被广泛应用于许多领域,例如场景分类[29]、视觉跟踪[21]、人的重新识别[30]、前景图评估[10]、内容感知图像编辑[52]、光场图像分割[36]和图像字幕[14]等。
随着深度卷积神经网络的发展,大量基于深度卷积神经网络的方法[33,44,35,37,43,6,45,42,39,27,38,24,48]被提出用于RGB显著目标检测,并取得了令人满意的性能。然而,一些复杂的场景仍然没有解决,例如突出的对象与背景具有相似的外观,或者不同对象之间的对比度极低。在这些情况下,仅使用RGB图像提供的信息不足以很好地预测显著图。
最近得益于微软Kinect和英特尔RealSense设备,可以方便地获取深度信息。此外,深度图中描绘的稳定几何结构对于亮度和纹理的变化是鲁棒的,这可以为处理复杂环境提供重要的补充信息。
现有的三维显著目标检测方法主要集中在深度流和RGB流的跨模态融合上。他们没有深入探究深度图本身的效果。
二、现有方法存在的缺点
- 参数量过大
- 没有利用好深度图的潜在优点
三、研究内容
在这项工作中,我们设计了一个单流网络,直接使用深度图来指导RGB和深度之间的早期融合和中期融合,节省了深度流的特征编码器,实现了一个轻量级的实时模型。我们巧妙地从两个角度利用深度信息:(1)克服了因模式差异大而导致的不兼容问题,构建了一个单一的流编码器来实现早期融合,它可以充分利用ImageNet预先训练好的主干模型来提取丰富多样的特征。(2)我们设计了一种新的深度增强双注意模块(DEDA),有效地为前/后背景分支提供空间滤波特征,使解码器能够最优地进行中间融合。此外,我们还提出了一个金字塔式的特征提取模块(PAFE),用于精确定位不同尺度的物体。
四、贡献
- 提出了一个单流网络来实现早期融合和中期融合,它隐含地表达了编码器中的跨模态信息交互,并进一步明确地增强了解码器中的这种效果。(更少的参数量)
- 深度增强双向注意力模块,该机制利用度图来增强掩模引导的注意力,并为编码器计算前/后背景注意特征。(适应复杂的区域)
- 通过使用自我关注机制,我们提出了一个金字塔式的特征提取模块,它可以描述特征地图中任意两个位置之间的空间相关性。
五、方法
深度增强的双重注意力模块:
融合策略:
金字塔式的特征提取模块:
这是一个结合RGB图像与深度图的一个示例~
联想是否可以将skeleton数据与其他数据结合呢?目前有结合使用了RGB图像的。