度量学习、细粒度识别相关论文阅读笔记(三)—— Destruction and Construction Learning for Fine-grained Image Recognition
破坏和构建学习 区域混淆机制 对抗性损失 区域对齐网络
除了标准分类骨干网络之外,引入了DCL分支来自动学习判别区域。
首先破坏输入图像以强调有判别性的局部细节,然后对局部区域之间的语义相关性建模以重建图像。
破坏:区域混淆机制 对抗性损失
区域混淆机制:
将输入图像划分为局部图块然后随机打乱
细粒度识别中局部细节比全局结构更重要,因为来自不同类别的图像通常具有相同的全局结构,仅在局部细节上不同。
图像中的局部区域被打乱,就会忽略对精细识别不重要的无关区域,并将迫使网络关注具有判别性的局部区域。
对抗性损失:
为了抵消区域混淆机制引入的视觉噪声,使用对抗性损失来区分原始图像和被破坏的图像。
构建:区域对齐网络
区域对齐网络:
用来恢复原始区域分布,对不同局部区域之间的相关性进行建模。
网络优点:
通过使用 RCM 训练分类器,除目标的分类标签外不需要任何先验知识就可以自动检测判别性的区域。
不仅考虑了精细的局部区域特征表示,而且考虑了整个图像中不同区域之间的语义相关性。
计算高效,在预测时除了骨干分类网络外没有额外的计算开销。
网络结构:
RCM:打乱输入图像局部区域
Backbone:分类网络
区域对齐网络:恢复局部区域的空间分布
对抗性学习网络:使用对抗性损失区分原始图像和破坏后图像
损失函数:
:原始图像,:破坏后的图像
分类损失:
GT: one-vs-all label (label, label)
对抗性损失:
避免过拟合RCM引起的噪声模式进入特征空间
GT:(label , label+num_class)
论文:
代码:
区域对齐损失
定位图像中的主要目标,并且倾向于找到子区域之间的相关性。帮助主干分类网络建立对目标的深层理解,并对结构信息进行建模,如目标的形状和目标各部分之间的语义相关性。
GT:(swap_law1, swap_law2)
总损失: