paper report: DIRT-T

paper list

A DIRT-T Approach to Unsupervised Domain Adaptation

Main Idea

这篇文章针对之前的domain adversarial learning的方法进行了批判，并通过引入聚类假设和Mean Teacher-liked的self-ensembling方法解决对抗机制的缺点，以至于可以获得更好的泛化分类性能。

本文一共提出了两个模型：

VADA Virtual Adversarial Domain Adaptation model
DIRT-T Decision-boundary Iterative Refinement Training with a Teacher

其实严格意义上第二个模型是在VADA的基础上的一个改进方法，并不是一个独立的模型。

Domain Adversarial的缺点

这篇文章提出之前的对抗学习的方式有两个缺点：

当特征提取器的能力过于强大，即输出的特征拟合能力很强的时候，强行将特征进行匹配是一个很弱的约束规则。如果一个特征提取器的输出特征是high-capacity的，那么理论上它可以将从target提取的特征直接拟合到source的特征分布上。问题是这样的拟合不会提升在target上的分类准确率。
在non-conservative domain adaptation情况下(单个分类器无法同时在source和target上获得最好的分类效果)，如果训练一个在source上表现太好，整个模型向source的方向偏移，势必会影响在target上的分类正确率。(中庸的思想，过犹不及)

VADA

这个模型相比于传统的DANN的对抗结构加入了聚类假设相关的惩罚项。聚类假设是对于网络的输入(image)分布是满足聚类算法的假设，即分类器边界不会穿过分布的高密度区域。所以提出了两个相关的惩罚项，一个是在输出特征上加入最小熵约束，让不同类别的特征尽可能的分离开，远离分类器的决策边界。二是计算输出特征和其轻微扰动的KL散度，在每个样本x的法向球邻域内强制分类器一致性。所以总的损失函数：
$\min\limits_{\theta}.L_{y}(\theta;D_{s}) + \lambda_{d}L_{d}(\theta;D_{s}, D_{t})+\lambda_{s}L_{v}(\theta;D_{s})+\lambda_{t}[L_{v}(\theta;D_{t}) + L_{c}(\theta;D_{t})]$

其中每一部分的具体表示：

$L_{t}(\theta )=L_{v}(\theta;D_{t}) + L_{c}(\theta;D_{t})$
$L_{v}(\theta;D)=E_{x\sim D}\left [ \max \limits_{\left \| r \right \| \leq\varepsilon}D_{KL}(h_{\theta}(x+r)) \right ]$
$L_{c}(\theta;D_{t}) = - E_{x\sim D_{t}}[h_{\theta}(x)^{\top}\ln h_{\theta}(x)]$

总体的模型结构图：

paper report: DIRT-T

DIRT-T

在一个训练好的VADA网络的基础上，这篇文章设计了一个新的增强方法去提高性能。这个方法只使用target的数据，借鉴了Mean Teacher方法的思想，继续深入贯彻落实聚类假设，即加大聚类中心之间的距离，让数据分布远离分类边界。

这里的DIRT-T方法更像一个two-stages训练方法的第二个stage，这个阶段的损失函数：
$\min\limits_{\theta_{n}}.\lambda_{t}L_{t}(\theta_{n})+\beta_{t}\mathbb{E}[D_{KL}(h_{\theta_{n-1}}(x)\parallel h_{\theta_{n}}(x))]$

paper report: DIRT-T

最后文章进行了一些测试和Ablation Study，证明了VADA加入的virtual adversarial training部分和DIRT-T增强方法的两个部分都是有效的，但是实验测试的数据集没有大规模数据集，有待进一步的测试。

本人个人博客主页：https://www.frankzhang.tech/

文献下载地址

https://arxiv.org/pdf/1802.08735.pdf