Agile Amulet 论文阅读笔记

这是一篇发表在CVPR 2018上的论文，论文提出了一种用于显著性目标检测的敏捷聚合多层特征框架，简称为Agile Amulet。

显著目标检测目的是识别图像中最为显著的物体或区域，它可以作为许多对象相关应用的第一步，例如实例检索，语义分割，视觉跟踪和行人再识别等。

Introduction

Agile Amulet和现有的显著性目标检测工作类似，使用多层次的卷积特性来预测显著性的映射，利用这个contextual attention的模块快速地找出最显著的物体或区域。它能引导低层次的特征学习，并且迫使原网络更关注于信息丰富的对象区域。另外论文还提出了一种新的聚合多层特征方法，可以显著降低模型参数和复杂度。

Agile Amulet 论文阅读笔记

现有的基于深度学习的显著性方法，能够通过利用预训练的深度CNN和多重损失监督，达到一个很不错的检测精度。但在作者的观点看来，主要都存在如下缺点：

首先是CNN架构被过度地设计了，比如在DSS方法中，引入了一系列密集的短连接来融合深层和浅层的特征，这样会带来的一个结果是网络变得冗余和计算效率降低。

第二个是训练过程空间和时间的消耗很大，因为他们的框架中引入了更多计算效率低下的卷基层。

第三个不足之处是显著性预测的速度没有达到预期。当前速度最快的DHS方法在Titan X上跑256*256的图像速度只达到了22.5帧每秒。

总的来说，论文主要有如下4点贡献：

1.论文的方法能明显提高显著性检测的性能，这个能在7个大型数据集上体现出来。

2.论文介绍的上下文attention能够用来快速提取显著区域并进行有效的低层次特征学习指引。

3.提出一种新的多层特征融合方法能够降低模型的大小并且提高计算效率。

4.在进行测试的时候速度能达到实时，也就是能达到30帧每秒。

Related work

近年来涌现出很多基于深度学习的显著性检测方法，达到了不错的效果。论文比较关注的是以上三种方法DHS，DSS，和Amulet。DHS提出一种深度层次显著性网络，逐步细化显著性映射。DSS方法则引入了一系列密集的短连接来融合深层和浅层的特征。Amulet提出了一种双向学习方法，可自适应地聚合多层次的卷积特征进行显著目标检测。

论文提出的方法利用contextual attention指导低层次卷积特征学习，并引导原网络关注点，也就是关注最显著的对象。

Approach

这张图，左边这部分是论文提出的方法的主要框架，主要包含4个部分。

最左边这个是一个多层特征提取的过程，第二个绿色框是side-output特征聚合的部分，第三个蓝色框是空间上下文attention模块，最右边这个黄色框是一个递归的显著性预测部分。

右边这三张图是里面三个重要模块的细节展示。

Agile Amulet 论文阅读笔记

首先介绍的是多层次特征提取。这个CNN采用的是VGG16或者ResNet50的模型，然后分别对于这两种模型，它选择的特征是来自上面所示的这几层。这里有几点值得注意的是：这些side-output features，就是公式上面的f1, f2一直到fL本质上是对于输入图像的不同视觉描述；在特征张量fL中，它的每一个像素对应于输入图像的一个较大的区域，随着深层卷积层感受野的扩大，上下文信息被隐式地变为区域特征。

Agile Amulet 论文阅读笔记

然后是side-output特征聚合模块，根据这个公式，用一个迭代的方法将每一个层次特征(fl)转换为一个降维的张量。所以上面这个公式给出的是第l层的输出gl。这里特征fl经过一个卷积接着一个反卷积过程，和上一层的gl还有a进行连接操作，（a代表的是上下文attention映射，在下一个模块会介绍到）。

Agile Amulet 论文阅读笔记

考虑到更高的层能捕获更大的上下文区域，并编码更具体的物体对象信息，我们从高级特性到低级特性生成attention掩膜。像这个公式所示，也是一个递归的过程。然后作者又考虑到另外一个问题，特定层的注意掩模只依赖于固定的上下文信息，这限制了它检测不同尺度的多个对象的能力。为了解决这一问题，我们利用CNN网络上下文的金字塔形结构，构建了一个具有丰富上下文信息的attention金字塔。所以我们将生成的上下文attention映射从顶层堆栈到当前层。

Agile Amulet 论文阅读笔记

最后一个显著性预测部分，在总结前人工作的失败之上，也就是如果我们使用多个预测，就会出现不一致的情况，在这种情况下，某些预测本身有时可以提供比最终融合的输出更好的结果。相反，论文提出了一种更直接的递归预测方法。如这个图所示，我们使用简单的前加和attention掩膜来结合当前层和更高层的预测。

Agile Amulet 论文阅读笔记

Experiment

对于训练来说，输入到整个框架中的是一个图像对，包含一张原始图像和对应的二值ground truth。主要是采取这个交叉熵损失作为目标函数，Y+代表的是前景的像素数目，Y-代表的是背景像素数目。β是类别平衡权重，等于背景像素占整张图像的百分比。1-β就等于前景像素占整张图像的百分比。然后s0和s1这代表该像素预测为前景或背景的得分。

训练集用的是MSRA10K，数据集包含1W张带有像素级别显著性标注的图像，然后作者再通过随机裁剪、镜面、和旋转等技巧将数据集增广到12W张。对于性能评估，论文采用了这7个公开的显著性检测数据集。主要使用到四个指标来评估不同的显著性检测算法的性能，包括最常用的PR曲线（查全率曲线），F-measure，平均绝对误差MAE还有最近提出的S-measure。

Agile Amulet 论文阅读笔记

首先是一个定量实验，这些是论文算法用VGG-16模型和其他算法PR曲线的对比，还有其他三个指标的对比。红色代表的是这个指标下的最高得分，绿色代表的是第二高。可以看到在有些指标上论文提出的方法是比不上DSS方法的，这里作者也给出了解释说其他方法相对来说需要更大的存储空间和计算时间。

Agile Amulet 论文阅读笔记

然后是一个定性的实验。前两行的图像它的主体和背景在颜色上差别很小，所以导致了很多其他方法的失败，但本文方法成功地突出他们并保留了尖锐的边缘。最后两行是有两个互不相连的显著目标，有些方法对于这种类型的图像就处理的不好。

Agile Amulet 论文阅读笔记

再来看一个消融实验。A和b是用来验证我们这种聚合方法的效果，明显各种评价指标上b方法要优于a方法。B和C对比的是从低层到高层和从高层到低层的attention方法。自顶向下的attention要优于自底向上的方法，作者分析原因在于deep CNNs已经具有自底向上特征提取的内在属性。最后e和d的对比是分析上下文金字塔和单个attention模型的优劣。F改用ResNet-50的模型是为了证明我们的方法可以用更强大的特征来持续地提高显著性精度。

Agile Amulet 论文阅读笔记

最后运行效率对比分析。在一个titan x的显卡上测试速度能达到30.2帧每秒，达到了实时的效果，而模型的大小相比于其他方法也大大地缩小了。作者分析训练时间的大大缩短归功于上下文attention模型，而模型的减小则归功于新突出的特征聚合方法。

Agile Amulet 论文阅读笔记

Conclusion

总结一下，论文提出了一种新的叫做agile amulet的显著性物体检测方法，包括介绍了上下文attention模型并提出了一种新的特征聚合方法。最后实验验证了算法的精度和效率。