Learning Compositional Representations for Few-Shot Recognition

论文地址

开源模型

一,概述

​ 受到人类存储知识方法(组成结构)的启发,作者提出了一种简单的正则化方法,允许将学习到的表示分解为多个部分,即借用类级别的属性注释将网络的特征空间分解为与属性对应的子空间,从而更好地泛化模型提取出的知识来达到更好的性能。

​ 主要贡献:

  1. 提出了第一种学习深层成分表示的方法。
  2. 说明了在ImageNet数据集上收集属性注释的简单性。
  3. 性能的提升。

二,方法阐述

2.1 问题定义

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

​ 首先,在Sbase上学习了一个参数为θ\theta​的表示模型,该模型用于接下来的在Snovel上分类任务。

​ 为了更好地表明类标签yi\inCbase的结构信息,作者引入了类层面的派生属性集D(xi)\subsetD0,即属性集合。需要注意的是,与ZSL零样本学习不同是,仅仅只有基本类别有派生属性集合来表示其结构组成。注意,对于Snovel类别,只能访问类别标签即yi,而没有任何派生属性集。

2.2 结构组成正则化

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

2.2.1 硬正则化

[论文笔记]Learning Compositional Representations for Few-Shot Recognition
​ 其中,fn^^^ 是参数为η\eta​的表示模型,d是xi派生属性集合中的一个元素。其中fn^^^ 被实现为一个线性嵌入层。

η\eta 是一个 k x m 的矩阵,其中 k = |D0|,m为图像嵌入空间的维数。(通过网络的深层提取出的特征的每一个channel关注点是不一样的)。[论文笔记]Learning Compositional Representations for Few-Shot Recognition

​ 作者把上面提到Lcmp_h作为一个正则项和分类损失Lcls一起使用,例如softmax。直观来说,Eq.(2)对基于梯度下降的得到的参数施加约束,迫使它从所有能够很好地解决分类问题的模型中选择一个可以在全体属性集合D0的预定义属性空间完全分解的模型。[论文笔记]Learning Compositional Representations for Few-Shot Recognition

λ\lambda 是 超参,起到权衡Lcmp_h的作用。

​ 但是,这种硬正则化的缺点在于,在公式(1)中做了一个重要的假设,D是十分详尽。换句话说,为了保持这个等式,D0必须捕获图像的各方面的结构信息。但是获取详尽的属性注释代价比较高,所以作者在下面提出提取了个软约束。

2.2.2 软正则化

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

​ 为此,作者最大化每个属性的嵌入与图像嵌入的点积和,而不是强制对属性的嵌入进行完全分解。共同优化上面式子和Lcls可以确保,fθ\theta即可以捕获属性编码的组成信息,同时也允许它对对分类任务其他有用的剩余因素建模。注意,为了避免琐碎的解决方案,必须同时最小化与不在D(xi)中的属性的嵌入的相似性。(我认为是怕顾此失彼)

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

2.2.3 属性正交化

​ 最后,作者观察到训练集中的一些属性是高度相关的。例如,SUN397上的大部分自然场景中都有植被。直接对这类属性的Eq.(5)进行优化将无法分离出对应的变异因子,限制了学习图像表示的泛化能力。为了解决这个问题,我们建议强制属性嵌入的正交性,fn^^^,因此,作者的最终目标损失函数采用了如下的这种形式:

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

2.3 属性监督获取的难度

​ 为了缓解这个问题,作者声明任意给定类别中的实例共享相同的组成结构,即一个类别的样本享有共同的属性集合。(但作者认为这种标记噪声(遮挡,光照等环境因素带来的属性表示不清晰)在实践中是可以忽略的,这在第4节中得到了实证验证。)然后,貌似用了一个模型来获得打标。(我没仔细看这部分内容)。

三,实验结果

  1. ​ 对照分析硬正则化和软正则化的效果[论文笔记]Learning Compositional Representations for Few-Shot Recognition
  2. 对照分析模型各个部件的作用(不带/comp的是其他作为对照的模型表现)[论文笔记]Learning Compositional Representations for Few-Shot Recognition
  3. 作者提出的这种方法,在有充足样本训练的情况下,提升不高,在小样本场景下,提升很大(当有许多训练示例可用时,得到的表示与现有方法相当,但是在小样本的情况下泛化得更好。)[论文笔记]Learning Compositional Representations for Few-Shot Recognition
  4. 与其他 State-of-the-Art的对比[论文笔记]Learning Compositional Representations for Few-Shot Recognition

相关文章:

  • 2021-09-22
  • 2021-05-22
  • 2021-09-20
  • 2021-10-09
  • 2021-09-06
  • 2022-12-23
  • 2021-05-13
猜你喜欢
  • 2021-07-25
  • 2021-12-14
  • 2021-07-04
  • 2021-05-24
  • 2021-11-26
  • 2022-01-03
  • 2021-04-17
相关资源
相似解决方案