显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection

文章目录

摘要
网络详解

特征提取
Cross Reﬁnement Unit
CRU

Point-to-Point style
Set-to-Point Style.
Selective Set-to-Point Style.

损失函数

实验结果

Ablation Analysis
对比

总结

摘要

现状：现有的算法大多集中于聚合预训练的卷积神经网络的多层次特征。此外，一些人尝试利用边缘信息进行辅助训练。而现有的边缘感知模型设计的是单向框架，仅利用边缘特征来改善分割特征。

提出新框架：作者研究了二值分割与边缘映射之间的相互关系，指出边缘映射中的边界区域是对应分割映射中目标区域的合适子集。受此启发，提出了一种新颖的边缘感知显著目标检测方法——堆叠交叉细化网络(SCRN)，该方法在两个任务之间双向传递信息，同时细化多层边缘和分割特征。

提出了一种有效的交叉细化单元(CRU)，在显著目标检测和边缘检测两个任务之间双向传递信息。在CRU中，设计了两个特定方向的集成操作，以同时细化两个任务的多层次特征；
提出了一种新的显著目标检测框架——堆叠交叉细化网络(SCRN)，该框架通过叠加多个cru来逐步改进两组多层次的特征。结合典型的u网结构，我们的框架分割突出的目标从图像精确。

网络详解

前边已经简单介绍了网络组成，接下来将要详细的介绍每个模块的原理以及构造方法
整体网络架构：
显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection
在此之前，先了解以下边缘和分割的相互关系：
突出目标检测是一个像素级二值分类问题。定义一个真值分割映射M_s = {M_s^p }，其中p表示图像的一个像素，N为图像中像素的个数。那么对应的边映射可以定义为M_e。对于一个图像，M_s突出了整个突出的物体，而M_e只突出突出的物体的边缘。因此，M_e中的边缘区域就是M_s中目标区域的合适子集,这个关系可以表示为：显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection

特征提取

模型基于Res-Net50。从骨干网的4个残块中得到4个层次特征，定义为F = {F_i,i = 1,2,3,4}。给定一幅大小为H×W的图像，每个特征的大小为H /（2_i+1）×W /（2_i+1）×C。C为某特征的通道数，等于2_i+7。对于每一层，使用两个1×1卷积层，为两个任务提取两个32通道数的特征。然后用S = {S_nⁱ,i= 1,2,3,4}和E = {E_nⁱ,i= 1,2,3,4}分别表示显著性目标检测和边缘检测的多层次特征。在该模型中，将多个CRU进行叠加，并使用n表示特征属于哪个CRU。对于未细化的特征，n = 0。

Cross Reﬁnement Unit

显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection

交叉细化单元：上图即为多个CRU，CRU之间采用端到端的连接方式（一个CRU的输入为前一个CRU的输出），第n个CRU的i层的特征（S_nⁱ，E_nⁱ）集成(S_n−1,E_n−1)计算得到，因此，在CRU中设计了两个特定方向的集成操作。这两种运算的一般公式定义为: 显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection
在设计这两种函数时，存在两个问题。一个问题是如何在各个方向上集成特性。另一个问题是应该选择一个任务的多少个级别特征来改进另一个任务的某个级别特征。为了解决这两个问题，在下面逐步介绍三种风格的CRU。

CRU

CRU的设计用来解决上面提到的两个问题

Point-to-Point style

对于一个任务的每一个层次特征，可以直接使用另一个任务对应的层次特征对其进行细化，即仅使用E_n−1ⁱ和S_n-1ⁱ彼此细化。这被称为CRU的点对点风格。在使用分割特征来细化边缘特征时，我们使用特征层乘法来近似布尔值和运算。

在使用分割特征来细化边缘特征时，使用特征层乘法来近似布尔值和(Boolead And)运算。在本例中，点对点样式的函数g被定义为:
在使用细化边缘特征细化分割特征时时，采用了另一种策略，结合边缘特征来增强分割特征。点对点式函数f表示为:（Cat时是通道轴之间的连接操作）
通过以上方法，一方面，分割特征包含完整的边缘信息，可以通过乘法运算来改进边缘特征;另一方面，通过拼接边缘特征可以抑制分割特征中的干扰。

Set-to-Point Style.

CNN网络从输入图像中提取多层特征，这些特征代表不同的信息。高级特征通常代表语义信息，而低级特征则关注与类别无关的空间信息。为了在特征细化中编码更多的信息，我们进一步提出了一种集对点的方法，该方法通过集成另一个任务的所有层次特征来细化一个任务的每一层特征。例如，E_n−1ⁱ通过四层分割特征{S_n−1^k,k =1，…，4}来细化。

在这种情况下，函数g被定义为:（其中CU是一个尺度变换操作，1×1卷积层，输出通道数为32，是保证分割和边缘特征之间的空间大小一致性。）
与之对应，此方式下的f被定义为（其中Cat[∗]意味着连接第(n−1)个CRU的所有级别的边缘特征。在这种连接方式中，Conv有160个输入通道号。与点对点风格相比，通过融合更多的信息，进一步提高了分割和边缘特征。）

Selective Set-to-Point Style.

当神经网络从输入图像中提取多层特征时，随着神经网络的深入，特征中的干扰因素逐渐被抑制。低层特征包含了大量的背景空间细节，高层特征更侧重于区分区域。由于低层特征中干扰较多，我们将原来的set-to-point样式改进为选择性版本，函数g更新为: 显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection
f更新为：

在这个可选版本中，对于一个任务的一个级别特性，另一个任务的较低级特性在特性细化中被忽略。例如，底层的特征值E_n-1¹仍然被{S_n-1ⁱ,i=1,2,3,4}四个特征图细化，而高层特征E_n-1⁴只被S_n-1⁴细化。此外，选择样式比原始的set-topoint样式的计算开销更少。此外，在特征集成中引入了较少的干扰，提高了性能。图3展示了这三种不同类型的CRU的一些可视化实例：

显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection

通过对多个任务进行层次化处理，得到了两个任务改进后的多级特征。进而使用2个U型网络通过自上而下的各自融合每个任务特征，每次上采样和连接操作之后都有一个卷积层作为CRU，通过两个额外的1×1卷积层，两个上采样操作(比例因子4)和sigmoid函数，得到了预测的分割和边缘映射(P_s,P_e)。

损失函数

所提出网络的损失函数：
显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection

实验结果

Ablation Analysis

消融实验：设置基线为不使用所提出的CRU，并为两个任务包含两个独立的分支。
CRU的数量：仅使用一个CRU并不能明显提高性能。这可能是因为一个CRU对扩大感受野的作用有限。因此，采用偶数叠加数(2,4,6,8)对所提模型进行检验，结果如表1所示，两个CRU (SCRN2)模型的性能明显优于基线。当CRU数大于4时，数据集的性能增长缓慢，DUT-OMRON数据集的性能下降。这是因为添加太多的CRU会导致引入太多参数而导致过拟合。综上所述，我们综合考虑性能和效率，选择四个CRUs (SCRN4)版本作为最终模型: 显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection
双向模型与单向变量:

相互关系的影响：
不同风格的CRU的效果：

对比

表5显示了在6个传统基准数据集上提出的模型和10个最新算法的maxF和MAE得分：显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection
图四：用10种最先进的算法对所提出的模型进行定量比较。第一行显示加权的f -measure和结构相似度得分。第二和第三行分别是PR和F-measure曲线。

显著性目标检测之Stacked Cross Reﬁnement Network for Edge-Aware Salient Object Detection
图5为可视化对比:

表6显示了所提模型和10种最新算法的结构相似度得分:

总结

在本文中，作者提出了一种新的显著目标检测框架，即堆叠交叉细化网络(SCRN)。基于二值分割和边缘映射之间的逻辑相互关系，我们提出了交叉细化单元(CRU)，其中设计了两个特定方向的集成操作，以改进两个任务的多层次特征。该模型采用了典型的u型网结构，能够快速准确地检测突出物。实验表明，该模型在六个基准数据集上的性能显著优于现有算法，在SOC数据集的大多数场景中排名第一。