Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada

目前方法的缺陷：只顾及了源域和目标域之间的边缘分布，没有顾及源域和目标域之间的联合概率分布，不仅对齐不好，而且会把已经对齐的特征进行负迁移。为了解决全局对抗学习的局限性，提出了类别级的对抗网络。
本文贡献如下：
（1）通过提出对不同特征的对抗损失进行自适应加权，强调了类别级特征对齐对减少域移位的重要性。
（2）论文结果与最先进的UDA（unsupervised domain adaptation）方法在两个转移学习任务上是一致的

方法

1 问题提出

传统的以对抗为基础的网络（TAD）中的G主要有两方面的任务：
（1）从有注释的源域中提取知识以便最小化语义分割损失：
Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada
（2）通过欺骗鉴别器来学习一个域不变特征，这个性质通过最小化以下损失来实现：

但是，这里存在一个问题，即使在边际分布中最完美的对齐，也会造成负迁移，本来来自不同域的但是属于同一类别的样本在特征空间里是对齐的，由于对抗损失，考虑了全局的边缘分布，使得这些原本对齐的特征出现了偏离。
本文中把这种现象叫“语义一致性”

2 网络结构

Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada 如图，一个特征提取器E和两个分类器C1和C2统称为生成器G，G是以FCN为基础的分割网络。D是以CNN为基础的二元分类网络。
E从输入图像中提取特征;C1和C2将E生成的特征划分为预定义的语义类，如car、tree和road。在联合训练中，我们通过余弦距离损失强制C1和C2的权值不同。这将为我们提供不同的视角/分类器来对每个特征进行语义预测。最后的预测图p是两个不同的预测图p1和p2加起来的和，称之为协同预测。
（1）源域：源域中的图像xs输入到特征提取器E，输出特征图，再输入到两个分类器C1和C2，然后产生一个像素级的协同预测p。一方面经过一个监督学习，p与xs的标签计算一个语义分割损失；另一方面，p输入到对抗器中产生一个对抗损失。
（2）目标域：给定一个目标域的图像xt，我们仍然把它输入到G产生一个协同预测p。与源域图像不同的是，我们利用p1和p2计算了一个差异图，表示为M(P1,P2)，M表示一些常用的距离函数，用来逐像素计算两图之间的差异。比如当我们使用余弦距离时，表示见论文。一旦D利用协同预测p产生一个对抗损失图Lavd，我们可以计算Lavd和M(p1,p2)之间逐像素的乘积。结果是，目标域最终的自适应对抗损失为：
Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada
这里M使用的余弦距离，（i,j）代表了图上的所有像素。
这样，分割图上的每一个像素都有不同的权重和对抗损失。

3 训练目标

以上所提出的网络由三个损失函数构成：一是分割损失，二是权重差异损失，三是自适应对抗损失。

（1）分割损失：
给定源域的一幅图像xs，其形状为3HW，其对应的标签为ys，形状为CHW，C为分割的类别数。多分类交叉熵损失：
Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada （2）权重差异损失：
正如协同训练算法建议的那样，两个分类器C1和C2应该具有不同的参数，以便为一个特征的提取提供两个不同的视角。否则，训练就会退化为自我训练。具体地，我们通过最小化两个分类器的余弦相似度来增强它们的卷积层的权值的散度。
Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada （3）自适应对抗损失：
论文采用两个预测值p1和p2之间的差异作为对抗损失加权的一个指标。这种自适应的对抗损失可以从传统的对抗损失里进行扩展。
Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada 这三个损失加到一起就是本文模型CLAN的总损失：
通过交替优化G和D来解决公式7，知道总损失L达到平衡。

4 分析

该框架与传统的对抗性学习的主要区别在于:差异损失和类别级对抗性损失。因此，分析将重点放在这两个差异上。
首先，差异（协同训练）损失鼓励E学习域不变的特征，而不是学习域特定的要素。在我们的网络中分类器C1和C2，1)被鼓励去捕获不同的特征，这是由差异损失来保证的，2)强制对任何E的输出(无论是源或目标域)进行相同的预测，这是分割损失和对抗性损失所要求的。这两方面的因素，实际上都要求E应该跨源域和目标域捕获像素的本质方面，这就是像素的纯语义，即像素的域不变方面。如果没有差异损失(协同训练)，方面1）就会丢失，E学习域不变信息的需求也会减弱。另一方面,在我们的模拟图像→现实图像的任务时，这两个领域在视觉层面变化很多,但在语义层面上重叠。如果从E中输入具有视觉层面特征的C1和C2，其在目标域内的预测将会不准确，并趋于不一致，将会受到较大的对抗损失的惩罚。因此，一旦我们的算法收敛，C1和C2将被输入语义级别的特征，而不是视觉级别的特征。也就是说，鼓励E学习域不变语义。因此，差异损失是提高适应能力的隐性促进因素。
第二，另一个主要的贡献是通过加入 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Ada 扩大了传统的对抗损失。一方面，当M(p1,p2)很大时，不同域的相同类别的特征图不具有相似的联合分布：它们的语义不一致。因此，权重的分配主要是为了鼓励G在遭受域转移的特征上欺骗D。另一方面，当M(p(1)， p(2))较小时，联合分布在域间会有较大的重叠，说明语义不一致问题不严重。在这种情况下，G往往忽略了D的对抗性惩罚。从D的角度来看，引入自适应权值，鼓励D从语义不一致的例子因此，在对抗性训练中，CLAN能够提高分类水平的一致性程度。中提取更多的知识。这是影响适应能力的一个重要因素。