论文阅读笔记《Few-shot Classification via Adaptive Attention》

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种基于注意力机制的小样本学习算法。作者认为基于参数优化的元学习算法优化过程过于复杂，而基于度量学习的小样本学习算法，虽然更加简单有效，但缺少对于新任务的适应能力。本文利用注意力机制根据支持集图像的特征图和查询集图像的特征图，得到对应的注意力图(Attention Maps)，将注意力图与查询集图像的特征图做逐元素相乘，得到了优化后的特征图，再利用其进行分类。整个网络包含三个部分：特征提取网络，自适应注意力模块，分类器，网络结构如下图所示
论文阅读笔记《Few-shot Classification via Adaptive Attention》
首先，支持集图像和查询集图像分别经过特征提取器 $F(;\theta_F)$ ，得到对应的特征图 $f_s$ 和 $f_q$ 。然后，将 $f_s$ 和 $f_q$ 输入到自适应注意力模块 $A(;\theta_A)$ 中，用于计算注意力图，自适应注意力模块的结构如下图所示
论文阅读笔记《Few-shot Classification via Adaptive Attention》
如图所示，自适应注意力模块主要由元权重生成器 $A_R(;\theta_R)$ 和空间注意力生成器 $A_S(;\theta_S)$ 构成，支持集图像的特征图经过元权重生成器得到对应的权重向量 $w_s=A_R(f_s;\theta_R)$ ，然后将 $w_s$ 与查询集图像的特征图 $f_q$ 做逐通道相乘，得到类别相关的特征图 $f_q^{y_s}$
论文阅读笔记《Few-shot Classification via Adaptive Attention》
这里其实是采用了通道注意力机制，作者认为支持集图像特征图的每个通道都表示不同的特征，但这些特征有些是重要的，有些是无关的。因此利用元权重生成器，将每个通道的特征图都转化为一个权重值，再与查询集图像特征图逐通道相乘，得到加权后的查询集图像特征图，这一特征图包含着每个类别支持集特征图的信息，因此称为类别相关的特征图 $f_q^{y_s}$ 。
得到的类别相关特征图 $f_q^{y_s}$ 接下来要输入到空间注意力模块 $A_S$ 中，该模块的作用是得到查询集特征图中与支持集相关的重要空间区域，输出对应的注意力图 $M_q^{y_s}$
论文阅读笔记《Few-shot Classification via Adaptive Attention》
在注意力图 $M_q^{y_s}$ 中，与支持集类别 $y_s$ 相关的区域其特征值要更大，反映到可视化的图像中就是那个部分的区域会更加明亮，而其他无关区域的色彩会更加暗沉，这本质上是一种空间注意力机制。将得到的注意力图 $M_q^{y_s}$ 与查询集特征图 $f_q$ 做逐元素相乘计算，就得到了优化后的特征图 $f^{M_s}_q$
论文阅读笔记《Few-shot Classification via Adaptive Attention》
最后，将优化后的特征图 $f^{M_s}_q$ 输入到分类器 $C$ 中，分别得到每个支持集类别 $y_s$ 对应的分类得分 $s_{y_s}^q$

整个过程可以表示为

其中 $A(f_s,f_q)$ 表示自适应注意力模块
论文阅读笔记《Few-shot Classification via Adaptive Attention》
即使在最后利用ReLU函数将输出值统一为正值，这个过程还是不对称的（指查询集特征图和支持集特征图不能交换位置），因此作者又改进为对称形式

用 $d(f_s,f_q)$ 表示最终的分类得分。

实现过程

网络结构

特征提取网络采用4-conv或ResNet网络，元权重生成器采用SPP+3个全连接层结构，空间注意力生成器采用两个全连接层+全局平均池化层结构，分类器采用SPP+3个全连接层结构。

损失函数

损失函数包含两个部分：注意力损失 $L_{Att}$ 和分类损失 $L_{CE}$
论文阅读笔记《Few-shot Classification via Adaptive Attention》
其中注意力损失为

$a_j^q$ 是将自适应注意力模块输出的注意力图 $M_q^{y_i}$ 经过全局平均池化得到的

分类损失为

$s^q_j$ 表示分类得分，是对类别 $y_i$ 对应的 $K$ 个支持集图像得到的分类预测得分求平均值得到的
论文阅读笔记《Few-shot Classification via Adaptive Attention》

创新点

引入了通道注意力机制和空间注意力机制对特征图进行优化，从而改善小样本分类效果
设计了元权重生成器和空间注意力生成器结构，并将分类预测得分改为对称形式

算法评价

本文利用注意力机制对特征图进行了优化，使其具备根据任务（查询集图像）进行自适应调整的能力。根据最后的可视化实验结果来看，得到的注意力图的确在对应的类别，对应的区域上有更明显的反应，这从一个侧面证实了注意力机制的作用。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。论文阅读笔记《Few-shot Classification via Adaptive Attention》