[论文笔记]Learning Compositional Representations for Few-Shot Recognition

为了更好地表明类标签y_i $\in$ C_base的结构信息，作者引入了类层面的派生属性集D(xi) $\subset$ D₀，即属性集合。需要注意的是，与ZSL零样本学习不同是，仅仅只有基本类别有派生属性集合来表示其结构组成。注意，对于S_novel类别，只能访问类别标签即y_i，而没有任何派生属性集。

2.2 结构组成正则化

2.2.1 硬正则化

[论文笔记]Learning Compositional Representations for Few-Shot Recognition
其中，f_n^^^ 是参数为 $\eta$ 的表示模型，d是x_i派生属性集合中的一个元素。其中f_n^^^ 被实现为一个线性嵌入层。

$\eta$ 是一个 k x m 的矩阵，其中 k = |D₀|，m为图像嵌入空间的维数。(通过网络的深层提取出的特征的每一个channel关注点是不一样的)。 [论文笔记]Learning Compositional Representations for Few-Shot Recognition

作者把上面提到L_{cmp_h}作为一个正则项和分类损失L_cls一起使用，例如softmax。直观来说，Eq.(2)对基于梯度下降的得到的参数施加约束，迫使它从所有能够很好地解决分类问题的模型中选择一个可以在全体属性集合D₀的预定义属性空间完全分解的模型。 [论文笔记]Learning Compositional Representations for Few-Shot Recognition

$\lambda$ 是超参，起到权衡L_{cmp_h}的作用。

但是，这种硬正则化的缺点在于，在公式(1)中做了一个重要的假设，D是十分详尽。换句话说，为了保持这个等式，D₀必须捕获图像的各方面的结构信息。但是获取详尽的属性注释代价比较高，所以作者在下面提出提取了个软约束。

2.2.2 软正则化

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

为此，作者最大化每个属性的嵌入与图像嵌入的点积和，而不是强制对属性的嵌入进行完全分解。共同优化上面式子和L_cls可以确保,f $\theta$ 即可以捕获属性编码的组成信息，同时也允许它对对分类任务其他有用的剩余因素建模。注意，为了避免琐碎的解决方案，必须同时最小化与不在D(xi)中的属性的嵌入的相似性。(我认为是怕顾此失彼)

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

2.2.3 属性正交化

最后，作者观察到训练集中的一些属性是高度相关的。例如，SUN397上的大部分自然场景中都有植被。直接对这类属性的Eq.(5)进行优化将无法分离出对应的变异因子，限制了学习图像表示的泛化能力。为了解决这个问题，我们建议强制属性嵌入的正交性,f_n^^^，因此，作者的最终目标损失函数采用了如下的这种形式：

[论文笔记]Learning Compositional Representations for Few-Shot Recognition

2.3 属性监督获取的难度

为了缓解这个问题，作者声明任意给定类别中的实例共享相同的组成结构，即一个类别的样本享有共同的属性集合。(但作者认为这种标记噪声(遮挡，光照等环境因素带来的属性表示不清晰)在实践中是可以忽略的，这在第4节中得到了实证验证。)然后，貌似用了一个模型来获得打标。(我没仔细看这部分内容)。

三，实验结果

对照分析硬正则化和软正则化的效果
对照分析模型各个部件的作用(不带/comp的是其他作为对照的模型表现)
作者提出的这种方法，在有充足样本训练的情况下，提升不高，在小样本场景下，提升很大(当有许多训练示例可用时，得到的表示与现有方法相当，但是在小样本的情况下泛化得更好。)
与其他 State-of-the-Art的对比