Learning to Transfer Examples for Partial Domain Adaptation学习笔记
文章目录
tip
在域分类器以及源域分类器都对源域的样本进行加权。
使用了额外的域分类器以及源域分类器,保证权重函数中既考虑到标签信息,又考虑到域信息。
Abstract
在目标域样本未标注的情况下,部分域适应面临的主要挑战是如何在共享类别中对相关的样本进行迁移以促进正迁移,以及如何忽略源域中不相关的样本以减轻负迁移。作者在本文中提出了一个方法Example Transfer Network (ETN),它联合学习跨域的域不变性表示和一个渐进的加权方案来量化源域样本的可转移性。
Introduction
以往的方法都是对对抗网络中的样本进行加权,并对属于源域非共享类别中的样本进行降权。但是它们不能消除非共享类别对源域分类器的负面影响。此外,他们评估源域样本的可转移性,而不考虑潜在的区别性和多模态结构。因此它们可能会对齐源域非共享类别与目标域类别的特征,从而产生负迁移。
作者在本文提出了Example Transfer Network (ETN)。ETN根据源域样本与目标域样本的相似性,使用可转移性权重自动评估源域样本的可转移性,该权重用于衡量这些源域样本对源分类器和域分类器的贡献。特别的,ETN进一步揭示可转移权重的区别性结构。通过这种方式,可以更好地检测和过滤掉不相关的源域样本。
related work
Partial Domain Adaptation
选择性对抗网络(SAN)采用多个具有加权机制的对抗网络来选择非共享类别中的源域样本。部分对抗域适配(Partial Adversarial Domain Adaptation)通过仅使用一个对抗网络并进一步将类别级权重添加到源分类器来改进SAN。重要性加权对抗网(IWAN) 使用辅助领域分类器(不涉及领域对抗训练)的Sigmoid输出来导出源域样本来自源域共享类别以及非共享类别的概率,该概率用于加权领域对抗网络中的源域样本。
这些方法减轻了由源域非共享类别引起的负迁移,并促进了共享类别之间的正迁移。然而,由于非共享类别仅被选择出来用于域分类器,源域分类器仍然用所有类别来训练,它们对于共享类别的性能可能被非共享类别分散。此外,用于获得重要性权重的IWAN的域分类器仅基于特征表示来区分源域和目标域,而不利用源域中的分类信息。这将导致使用非辨别性的重要性权重来区分共享类和异常类。
本文提出了一种实例转移网络(ETN),它在源分类器上进一步降低非共享类别的无关样本的权重⭐⭐⭐,并采用域分类器来量化实例的可转移性。
Example Transfer Network
文中源域表示为 D s = { ( x i , y i ) } i = 1 n s D_s=\{(x_i,y_i)\}^{n_s}_{i=1} Ds={(xi,yi)}i=1ns,其中 n s n_s ns表示源域样本的数量,源域拥有类别的个数为 ∣ C s ∣ |C_s| ∣Cs∣。目标域表示为 D t = { x i } i = n s + 1 n s + n t D_t=\{x_i\}^{n_s+n_t}_{i=n_s+1} Dt={xi}i=ns+1ns+nt,其中 n t n_t nt表示目标域未标注样本的数量,目标域拥有类别的个数为 ∣ C t ∣ |C_t| ∣Ct∣。目标域的类别空间是源域类别空间的子集: C t ⊂ C s C_t\sub C_s Ct⊂Cs,即 ∣ C s ∣ > ∣ C t ∣ |C_s|>|C_t| ∣Cs∣>∣Ct∣.源域与目标域的概率分布分别由p与q表示,且$p_{C_t}\neq q , 其 中 ,其中 ,其中p_{C_t} 表 示 源 域 中 属 于 目 标 域 类 别 空 间 表示源域中属于目标域类别空间 表示源域中属于目标域类别空间C_t 的 样 本 的 分 布 。 本 文 的 目 标 就 是 设 计 一 个 深 度 神 经 网 络 模 型 , 通 过 学 习 可 迁 移 的 特 征 的样本的分布。本文的目标就是设计一个深度神经网络模型,通过学习可迁移的特征 的样本的分布。本文的目标就是设计一个深度神经网络模型,通过学习可迁移的特征f=G_f(x) 以 及 适 应 分 类 器 以及适应分类器 以及适应分类器y=G_y(f)$来减小域间差异。
Transferability Weighting Framework
域适应的关键就是要减小源域样本域目标域样本之间的域偏移。域对抗网络通过一个 two-player minimax game来学习可迁移的特征,其中包括一个域分类器 G d G_d Gd来区别源域与目标域,还有一个特征提取器经过微调后来欺骗域分类器。
为了得到域不变性特征 f f f,通过最大化域分类器 G d G_d Gd的损失来学习特征提取器 G f G_f Gf的参数 θ f \theta_f θf,通过最小化域分类器的损失来学习 G d G_d Gd的参数 θ d \theta_d θd的参数。同时还要最小化标签分类器 G y G_y Gy的损失。
则对抗网络的目标函数为:
E ( θ f , θ y , θ d ) = 1 n s ∑ x i ∈ D s L y ( G y ( G f ( x i ) ) , y i ) − λ n s + n t ∑ x i ∈ D s ∪ D t L d ( G d ( G f ( x i ) ) , d i ) ( 1 ) E(\theta_f,\theta_y,\theta_d)=\frac{1}{n_s}\sum\limits_{x_i\in D_s}L_y(G_y(G_f(x_i)),y_i)-\frac{\lambda}{n_s+n_t}\sum\limits_{x_i \in D_s\cup D_t}L_d(G_d(G_f(x_i)),d_i)(1) E(θf,θy,θd)=ns1xi∈Ds∑Ly(Gy(Gf(xi)),yi)−ns+ntλxi∈Ds∪Dt∑Ld(Gd(Gf(xi)),di)(1)
d i d_i di表示域标, L y L_y Ly与 L d L_d Ld都是交叉熵损失。
但是由于源域非共享类别样本的存在,域对抗网络的性能在部分域适应中相比普通域适应会下降。
本文提出了一种新的可迁移性加权框架来解决部分域自适应该技术难题。使用
w
(
x
i
s
)
w(x^s_i)
w(xis)表示每个样本
x
i
s
x^s_i
xis的权重,以此代表每个样本的可迁移性。那么对于权重较大的源域样本,要增加其对最终模型的贡献来增强正迁移;否则,我们应该减少权重对减轻负迁移。IWAN在域分类器
G
d
G_d
Gd中改变了源域样本的权值,这里作者又将权值使用在源域分类器
G
y
G_y
Gy中,这明显地加强了模型区分非共享类别样本的能力。
此外,目标标签的未知性会使共享类别的识别变得困难。因此,作者认为通过半监督学习来利用未标记的目标样本也是不可或缺的。作者充分利用熵最小化原则。让 y ^ i t = G y ( G f ( x j t ) ∈ R ∣ C s ∣ ) \hat{y}^t_i=G_y(G_f(x^t_j)\in \mathbb{R}^{|C_s|}) y^it=Gy(Gf(xjt)∈R∣Cs∣),量化目标样本预测标签的不确定性的熵损失为:
H ( G y ( G f ( x j t ) ) ) = − ∑ c = 1 ∣ C s ∣ y ^ j , c t l o g y ^ j , c t H(G_y(G_f(x^t_j)))=-\sum\limits^{|C_s|}\limits_{c=1}\hat{y}^t_{j,c}log\hat{y}^t_{j,c} H(Gy(Gf(xjt)))=−c=1∑∣Cs∣y^j,ctlogy^j,ct
G f G_f Gf表示特征提取器, G y G_y Gy表示源域分类器, G d G_d Gd表示域分类器(包括对抗训练), G ~ d \tilde{G}_d G~d表示额外的域分类器(不包括对抗训练),量化每个源域样本的可转移性 w w w, G y ~ \tilde{G_y} Gy~表示额外的域标签分类器,将分类信息编码到辅助域分类器。蓝色部分是本文新提出的。
通过使用每个源域样本的可迁移性权重对源域分类器 G y G_y Gy与域分类器 G d G_d Gd进行加权,并结合熵最小化准则,作者提出以下目标:
其中 γ \gamma γ表示已标注源域样本与未标注目标域样本的权衡参数。
该模型能够进行端到端的训练,找到鞍点使得参数 θ ^ f , θ ^ y , θ ^ d \hat{\theta}_f,\hat{\theta}_y,\hat{\theta}_d θ^f,θ^y,θ^d满足:
Example Transferability Quantification
在拥有了带权值的框架后,现在的关键就是如何定义每个源域样本的可迁移性权值。作者使用一个额外的域分类器 G ~ d \tilde{G}_d G~d,但是这个域分类器不进行对抗训练,即特征生成器不会欺骗 G ~ d \tilde{G}_d G~d,这种辅助域鉴别器可以通过将每个源域样本 x i s x^s_i xis分类到目标域的Sigmoid概率来粗略地衡量源域样本的可迁移性。
域分类器
G
~
d
\tilde{G}_d
G~d通过该假设来区分源域与目标域的样本:源域样本中属于共享类别的样本比非共享类别的样本离目标域样本更接近。但是域分类器对源域与目标域样本的区分只基于域信息,当
G
~
d
\tilde{G}_d
G~d训练较好的时候有时还是无法区分源域与目标域的样本。因此作者又将辨别性信息添加到权重设计中,以解决共享类别样本与非共享类别样本的模糊性。
作者的目标是设计一个既使用了辨别性信息,又使用了域信息的迁移方法$w(x^s_i)$,对源域共享类别的样本与非共享类别的样本分别生成各自的权重。于是作者使用
l
e
a
k
y
−
s
o
f
t
m
a
x
leaky-softmax
leaky−softmax**函数添加了一个额外的标签预测值
G
^
y
\hat{G}_y
G^y,特征提取器的特征变换为
∣
C
s
∣
|C_s|
∣Cs∣即z维,之后向量经过
l
e
a
k
y
−
s
o
f
t
m
a
x
leaky-softmax
leaky−softmax:
σ ~ ( z ) = e x p ( z ) ∣ C s ∣ + ∑ c = 1 ∣ C s ∣ e x p ( z c ) \tilde{\sigma}(z)=\frac{exp(z)}{|C_s|+\sum\limits^{|C_s|}\limits_{c=1}}exp(z_c) σ~(z)=∣Cs∣+c=1∑∣Cs∣exp(z)exp(zc)
其中 z c z_c zc表示向量z的第c维。 l e a k y − s o f t m a x leaky-softmax leaky−softmax的输出接近1表示样本来自源域,接近0表示样本来自目标域。
如果定义 G ~ d \tilde{G}_d G~d为:
G ~ d ( G f ( x i ) ) = ∑ c = 1 ∣ C s ∣ G ~ y c ( G f ( x i ) ) \tilde{G}_d(G_f(x_i))=\sum\limits^{|C_s|}\limits_{c=1}\tilde{G}_y^c(G_f(x_i)) G~d(Gf(xi))=c=1∑∣Cs∣G~yc(Gf(xi))
其中 G ~ y c ( G f ( x i ) ) \tilde{G}_y^c(G_f(x_i)) G~yc(Gf(xi))表示样本 x i x_i xi属于类别c的概率,则 G ~ d ( G f ( x i ) ) \tilde{G}_d(G_f(x_i)) G~d(Gf(xi))可以被看做是计算每个样本属于源域的概率: G ~ d ( G f ( x i ) ) \tilde{G}_d(G_f(x_i)) G~d(Gf(xi))越小,表示样本越可能来自于目标域。
对于 ∣ C s ∣ |C_s| ∣Cs∣个类别的分类问题,作者通过 ∣ C s ∣ |C_s| ∣Cs∣one-vs-rest二进制分类任务上的多任务损失来训练辅助标签预测器 G ~ y \tilde{G}_y G~y:
E G ~ y = − λ n s ∑ i = 1 n s ∑ c = 1 ∣ C s ∣ [ y i , c s l o g G ~ y ( G f ( x i s ) ) ] + [ ( 1 − y i , c s ) l o g ( 1 − G ~ y c ( G f ( x i s ) ) ) ] E_{\tilde{G}_y}=-\frac{\lambda}{n_s}\sum\limits^{n_s}\limits_{i=1}\sum\limits^{|C_s|}\limits_{c=1}[y^s_{i,c}log\tilde{G}_y(G_f(x^s_i))]+[(1-y^s_{i,c})log(1-\tilde{G}_y^c(G_f(x^s_i)))] EG~y=−nsλi=1∑nsc=1∑∣Cs∣[yi,cslogG~y(Gf(xis))]+[(1−yi,cs)log(1−G~yc(Gf(xis)))]
其中 y i s y^s_i yis表示源域样本 x i s x^s_i xis是否属于类别c的 ground-truth标签
作者训练 G ~ d \tilde{G}_d G~d来区分源域与目标域的特征:
E G ~ d = − 1 n s ∑ i = 1 n s l o g ( G ~ d ( G f ( x i s ) ) ) − 1 n t ∑ j = 1 n t l o g ( 1 − G ~ d ( G f ( x j t ) ) ) E_{\tilde{G}_d}=-\frac{1}{n_s} \sum\limits^{n_s}\limits_{i=1}log(\tilde{G}_d(G_f(x^s_i)))-\frac{1}{n_t}\sum\limits^{n_t}\limits_{j=1}log(1-\tilde{G}_d(G_f(x^t_j))) EG~d=−ns1i=1∑nslog(G~d(Gf(xis)))−nt1j=1∑ntlog(1−G~d(Gf(xjt)))
G
~
d
\tilde{G}_d
G~d的训练基于
G
~
y
\tilde{G}_y
G~y的输出,这就保证了
G
~
d
\tilde{G}_d
G~d是用标签信息和域信息训练的,解决了共享类和非共享类之间的模糊性,从而更好地量化了样本的可迁移性。
最后,源域样本的权重表示为:
w ( x i s ) = 1 − G ~ d ( G f ( x i s ) ) w(x^s_i)=1-\tilde{G}_d(G_f(x^s_i)) w(xis)=1−G~d(Gf(xis))
由于源域样本的 G ~ d \tilde{G}_d G~d的输出更接近1,这意味着非常小的权重,因此对批量为B的每个小批量中的权重进行归一化:
w ( x ) ← w ( x ) 1 B ∑ i = 1 B w ( x i ) w(x)\leftarrow\frac{w(x)}{\frac{1}{B}\sum\limits^B\limits_{i=1}w(x_i)} w(x)←B1i=1∑Bw(xi)w(x)
Minimax Optimization Problem
通过之前的可迁移性权重网络框架以及样本的可迁移性量化,用 θ y ^ \theta_{\hat{y}} θy^表示额外的标签预测器 G y ~ \tilde{G_y} Gy~的参数,ETN模型通过最小优化问题找到鞍点,令参数 θ ^ f , θ ^ y , θ ^ d , θ y ^ \hat{\theta}_f,\hat{\theta}_y,\hat{\theta}_d,\theta_{\hat{y}} θ^f,θ^y,θ^d,θy^满足: