论文笔记20 -- Destruction and Construction Learning for Fine-grained Image Recognition

《Destruction and Construction Learning for Fine-grained Image Recognition 》

Yue Chen1∗， Yalong Bai2∗， Wei Zhang3， Tao Mei4
JD AI Research, Beijing, China

有代码依然是件很关键的事情~
有代码！！！: 点这里.

我是在解决某个xx任务的时候接触到这个工作的，所以这篇paper还是得读一读的。这是京东AI研究院在精细图像识别FGVC Challenge 2019 (The Sixth Workshop on Fine-Grained Visual Categorization in CVPR 2019) 中的方法，该方法取得了2项冠军、1项亚军：

First Place in iMaterialist Challenge on Product Recognition.
First Place in Fieldguide Challenge: Moths & Butterflies.
Second Place in iFood - 2019 at FGVC6.

该方法的主要思想是对原始输入图像按块进行打乱，进而“破坏”掉图像中的结构信息，然后让网络学习被 “破坏” 局部区域顺序的图像，强迫神经网络抓住重点视觉区域，增强网络对具有区分度局部细节的特征学习能力。

Abstract

关于目标局部（part）的精细特征表示在细粒度识别（fine-grained recognition）中起着至关重要的作用。例如，专家甚至可以根据专业知识，仅依靠目标的局部特征来区分细微差别的目标。

本文提出了一种新颖的“破坏与构造学习”（Destruction and Construction
Learning，DCL）方法，以提高细粒度识别的难度，并使用分类模型来获取专家知识。除了标准分类骨干网之外，还引入了另一个“破坏与构造”分支，去“破坏”然后“重建”输入图像，以学习具有判别性的区域特征。

具体来说，对于“破坏”部分，首先将输入图像划分为局部区域（怎么划分？），然后通过区域混淆机制（Region Confusion Mechanism，RCM）将其打乱。为了正确识别这些被破坏的图像，分类网络必须更加关注具有判别性的区域来发现差异。为了补偿RCM引入的噪声，使用了能够区分开原始图像和已破坏图像的对抗损失，来抑制RCM引入的噪声分布。

对于“构造”部分，使用了一个区域对齐网络，对打乱的局部区域之间的语义相关性进行建模，用于恢复局部区域的原始空间分布。通过参数共享的联合训练，DCL为分类网络注入了更多具有判别性的局部细节。

实验表明，文章提出的框架在三个标准数据集上均实现了最先进的性能。此外，该方法在训练中不需要任何外部知识，并且在前向推理时，除了标准分类网络外，没有其它计算开销。

1. Introduction

在过去的十年中，通过大规模标注数据和复杂模型设计的努力，通用目标识别取得了稳步进展。但是，识别精目标类别（例如，鸟类，汽车类型和飞机）仍然是一项很具有挑战性的任务，也引起了广泛的研究关注。尽管差异细微的目标在视觉上粗略一瞥是相似的，但是可以通过具有判别性的局部区域细节来正确地识别。

从具有判别性的目标局部学习判别性特征表示在细粒度图像识别中起着关键作用。现有的细粒度识别方法可以大致分为两类：如图1所示，一种（a）首先定位具有判别性的目标局部区域，然后根据这些判别区域进行分类，这种方法通常需要在目标或目标局部上添加额外的边界框标注，成本较高。另一种（b）试图通过注意力机制以无监督的方式自动定位判别性区域，因此不需要额外的标注。但是，这类方法通常需要额外的网络结构（例如，注意力机制），因此为训练和推理阶段引入了额外的计算开销。
论文笔记20 -- Destruction and Construction Learning for Fine-grained Image Recognition
文中提出了一种新颖的细粒度图像识别框架，称为“破坏与构造学习”（DCL），如图1（c）所示。除了标准分类骨干网络，还引入了DCL分支来自动学习判别性区域。首先破坏输入图像以强调具有判别性的局部细节，然后对局部区域之间的语义相关性进行建模来重建图像。一方面，DCL会自动定位判别性区域，因此在训练时不需要额外的标注。另一方面，DCL结构仅在训练阶段采用，因此在推理时不会引入任何额外的计算开销。

对于“破坏”部分，提出了一种区域混淆机制（RCM）将输入图像划分为局部块（NxN）然后洗牌，来故意“混淆”全局结构（图3）。细粒度识别中，局部细节比全局结构起着更重要的作用，因为来自不同细粒度类别的图像通常具有相同的全局结构或形状，仅在局部细节上不同。丢弃全局结构并保留局部细节可以迫使网络去关注具有判别性的局部区域。

洗牌也被使用在自然语言处理中，以使神经网络专注于判别词。类似地，如果图像中的局部区域（ local regions）被“洗牌”，则对于细粒度识别的无关区域将被忽略，并且网络将被迫基于具有判别性的局部细节对图像进行分类。使用RCM，图像的视觉外观已发生实质性改变。如图3的底部所示，尽管识别起来变得更加困难，但鸟类专家仍然可以轻松地发现差异。汽车爱好者仅通过考察汽车部件就可以区分汽车类型。类似地，神经网络也需要学习专家知识以对破坏的图像进行分类。
论文笔记20 -- Destruction and Construction Learning for Fine-grained Image Recognition
需要注意的是，“破坏”并不总是有益的。RCM也引入了几种视觉噪声，如图3所示。为了抵消这种负面影响，采用对抗性损失来区分原始图像和被破坏图像。结果是可以最小化噪声的影响，仅保留有益的局部细节。从概念上讲，对抗和分类损失是以对抗的方式工作，以从“破坏”中更细致的学习。

对于“构造”，引入了区域对齐网络（region alignment network）以恢复原始的区域分布，这与RCM的作用相反。通过学习恢复原始布局，网络需要理解每个区域的语义，包括那些具有判别性的区域。通过“构造”，可以对不同局部区域之间的相关性进行建模。

主要贡献概述如下：

提出了一种新颖的“破坏与构造学习（DCL）”框架，用于细粒度的识别。对于破坏，区域混淆机制（RCM）迫使分类网络从判别性区域中学习，而对抗性损失则防止了过度拟合RCM导致的噪声模式。对于构造，区域对齐网络通过对区域之间的语义相关性进行建模来恢复原始区域布局。
在三个标准基准数据集上实现了最先进的性能，在这些数据集上DCL始终优于现有方法。
与现有方法相比，DCL不需要额外的部件/目标标注，并且在推理时不会引入任何计算开销。

Abstract

1. Introduction

2. Related works