真的是闲的看视频敲的。
Transfer Learning From Algorithms to Theories and Back
http://ise.thss.tsinghua.edu.cn/~mlong/doc/transfer-learning-talk-valse19.pdf

迁移学习知识
机器学习的重要目标是从数据中学习模型,数据实际上是有分布的,关于特征x和标签y的联合分布。目标域的期望风险可以被训练数据的经验风险和sample capacity界定。
迁移学习source domain分布p 和td 分布q不一样,在大规模数据上预训练的模型能够有一个比较好的迁移能力,但这往往只是一个相对经验性的结果,
从分布的匹配角度说,迁移学习的根本问题是如何将两个domain中,分布进行适配。不容易,因为数据的分布非常的复杂。迁移学习中有一个主流的方法叫做对抗学习。通过confuse判别器,判别器分不开,就认为这两个分布是近似的。但GAN网络的很多研究成果告诉我们得到的分布并不是一个非常好的匹配。需要考虑更多的信息,比如正则化的方法,conditional方法,才能使得分布匹配得比较好。换句话说,如果我们只考虑边缘分布匹配,这对迁移学习实际上来说是不够的。另外一类比较经典的kernel embedding方法,叫做非参数化的方法。这类方法在深度学习出来之前,用核方法非参数的方法来定义一些领域之间差异的度量,这种度量通常叫做统计距离。使得统计距离最小的时候得到的特征就是一个比较好的特征。两类方法
VALSE2019 龙明盛老师speech

第一个是比较早的工作,主要考虑的是特征的分布不一样的时候。ICML2015,传统的统计学习的方法在TL学习中的应用,公式1最大均值散度特征映射将数据从原始空间映射到高纬空间,在这个高纬空间分别计算P和Q的期望。高纬空间中的期望,等价于低维空间中的期望方差斜度以及各阶momentum,整个数据分布有一个矩函数。自变量的各个order下的期望,等价于moments matirc矩匹配,如果分布PQ 所有阶次的矩函数是相等的,就认为dk 能够达到最小。基于这个考虑,这个工作中就提出了minmax包括两部分,mean game学到一个深度网络,参数是theta,在这个深度网络的表征之下,距离d达到了最小,就是统计距离最小的时候分布就接近。同时有一个核函数,multi-kernel learning找到最好的核函数k,在k下使得距离达到最大。为什么要考虑这一点呢?因为实际上很容易找到核函数k使得公式1代表的距离是0,因此一定会存在一个最优的核函数k使得这个距离达到最大。当距离对于两个domain的非常细小的差异都能够给出一个距离的时候,说明这个距离能够捕捉两个分布的微小的差异,认为这个时候去最小化这个距离是安全的。如果说两个domain差异比较大,距离缺比较小,这个时候去最小化这个距离实际上已经不太安全了。这就是我们提出min-max game的一个考量。当时在做这个工作的时候还没太注意到GAN的一系列工作。如果说我们这个工作和对抗学习有什么区别的话,它的max game 是一个非参数化的学习。公式1的kernel不带有任何的参数,除了多个kernel的combination的系数之外,并不带有其他可学习的参数。所以说它主要是一个非参数化的min-max game。
VALSE2019 龙明盛老师speech
提出一个用多核学习来学到一个更好的统计距离,公式3 MMD距离取k是在公式4中多核组合combine情况下就可以得到一个更好的统计距离。MMD的理论成果经典文章(Kernel Two-Sample Test (Gretton et al. 2012)。当这个距离是0的时候,当且仅当分布接近的时候,这个工作也是在这个理论指导之下进行的。两件事情,第一件事情特征学习。
VALSE2019 龙明盛老师speech
找到一个特征使得分类误差和距离都尽量地达到最小。核方法最讨厌的是什么,它是二次复杂性,所以在我们的工作中我们考虑了一个线性复杂性的算法,MMD的计算是只依赖核函数的期望,它并不依赖所有的核函数的值,可以很简单地给期望做一个sub-sample的无偏估计。这个时候可以很容易地把这个问题变成一个线性复杂性的问题。就不展开说了。
VALSE2019 龙明盛老师speech
另外一块就是kernel learning。通过多核学习学到一个最好的kernel使这个距离达到最大,公式6里面除了使这个距离最大还除以了一个thegema的平方。规范化之后的距离达到最大,可以将方差信息也都嵌入到学习中来,最后得到公式7二次规划问题将kernel学出来。
VALSE2019 龙明盛老师speech
NIPS2018条件分布不一样的时候,提出了条件式领域对抗网络。基本的motivation是比较简单的。还是和前面类似。我们要做分布的匹配的时候,我们要捕捉的是分布的统计量。前面我们捕捉的是均值方差和矩函数,这里我们捕捉交叉的互方差。为什么要考虑互方差,实际上也是由kernel embedding这个领域一系列理论工作来做的。举一个简单的例子,我们同时将特征x和label y他们考虑在一起的时候有两种方法。第一种非常常见的将x和y contact在一起。求解x和y contact期望,实际上是x的期望和y的期望的contact。这不是我们特别关心的,关心的是x和y之间的相互关系。所谓的联合分布本质上是x 和y的相互关系。我并不care x是什么,y是什么,它们独立在一起我并不关心。所以说引入的多线性算子是kernel embedding领域的理论结果。如果对x和y做多线性 map,再去计算期望和方差,发现即便是在线性的情况下,期望都是所有的class conditional distribution的contact。当y=1第一个类的multinal分布,和第二个类的multinal分布的时候,以及第c个类的multinal分布的contact。这个时候得到的结果捕捉到了所有的x和y的dependency的关系。在这个框架下不需要分别地考虑P(x|y)每一类。
VALSE2019 龙明盛老师speech
VALSE2019 龙明盛老师speech

方法非常简单,就做了一点微小的工作。领域对抗的方法是有一个feature层f,分类器的输出G是softmax的输出,不是pseudo label不做任何的argmax,会带来信息的损失,很难再有理论上的保证。我们考虑的是任意的一个特征层和分类器层输出,他们都是continues 的distribution。我们只做了一个很简单的变换,就是将f和classify prediction的G bilinear在一起,然后将结果输入到域对抗模型中,公式8。损失函数是公式9,判别器损失函数最大,说明分布不能被判别函数分开。
VALSE2019 龙明盛老师speech
数学性的复杂度比较高,随机性映射,公式11为9和10的近似。NIPS2018ALIN的成名之作。随机化方法解决维度比较高的情况。Rf,Rg 是两个random矩阵,随机生成一个在训练中保持不变。保证多线性mapping不会(crimidem音)爆炸。
VALSE2019 龙明盛老师speech
为了提升性能考虑到entropy,迁移学习领域的常用的一个trick。Entropy,我们的工作最早NIPS2016首次使用,半监督学习里的经典方法。公式13,entropy比较大说明预测结果具有比较高的不确定性,认为预测是比较不准的。看图。所以引入entropy weighting对领域的对抗性加权,entropy大的样本加权中考虑得少一些,因为这样的样本属于hard eg。
VALSE2019 龙明盛老师speech
得到的CDAN也是一个minmax game。Entropy使得hard eg 不会break model。直接把xy contact在一起没有效果,这也是逼着我们提出这样的方法。
VALSE2019 龙明盛老师speech

前面的工作是from 算法的角度。那么人们往往会想怎么样将算法的角度和理论的角度做brige,融合。首先考虑前面提出的方法是不是有理论保证的。Source risk,target risk就是在Q上的期望风险,定义两个分歧度,s disparity和t disparity度量的是给定任意两个假设G和G’,在source上不一致的概率。如果能找到一个假设控制s和t的分歧度,就可以利用这个假设来brige,将s和t的期望关联起来。
迁移学习中基本的假设
VALSE2019 龙明盛老师speech
VALSE2019 龙明盛老师speech是在s上的期望风险。如果存在一个理想假设G使得在s和t上的期望风险之和达到最小,认为这是一个比较容易的tl。 VALSE2019 龙明盛老师speech实际上是没有办法计算的,只能假设比较小,理论分析的困境。如图所示。
VALSE2019 龙明盛老师speech
将s和t risk关联起来。三角不等式公式18。只要考虑G和最好的G*的分歧度,就能将s和t risk联系到一起,再做一些简单的放缩。T risk可以被s risk以及第二项理论假设误差,加上s 分歧度与t上的分歧度。 我们通常会假设方括号里面的这一项是比较小的。目标是去界定第三项,定义为分布差异。两种方法界定。一,HH divergence经典。

VALSE2019 龙明盛老师speech

VALSE2019 龙明盛老师speech还有一种我们的工作中提出的disparity discrepancy。这两个discrepancy实际上差距也非常小,如果说能够找到红色的公式,让上界达到最小。最小化第三项只需要最小化第三项的上界。
遍历G和G’,就界定了目标的风险。因为公式中的G是不知道的,假设中存在的,既然不知道就不能去优化它。但是一旦找到了上界,这个G和G’就是假设空间中的任意一个假设,不一定是最好的一个,当然可以找到一个优化算法在假设空间中做搜索, 简化。我们发现这样做有点浪费。只关心G,不需要求G上界,G是分类器,可以通过s domain来学习它。微小的变化带来了性能上的变化。为什么我们要从理论上去分析这件事情。
用DD代替对称差divergence,对称差d存在了快十年了。Dd可以被领域判别器界定。领域判别器输入是f和g,CDAN模型的风险能被DD界定住。大家经常不敢用分类器的输出来做,为什么呢,审稿人会说这是个pseudo label,没有保证。但是我们这个工作证明了,当用的不是pseudo label,而是G,不用argmax,这个时候它是可以被界定住的。不奇怪,半监督学习领域,我们提出会给分类器加上各种正则化,并没有对pseudo label加正则化,对分类器的函数加正则化。在这种情况下,分类器的预测值是可以被使用的,这可能是之前的一个误区。
VALSE2019 龙明盛老师speech
新的工作,前面先找一个算法再找理论保证。这叫倒着打。现在需要正着打,需要理论分析推导,然后再去最好的迁移学习模型应该是什么样的。更informative的间隔理论。实际要处理的是多分类的问题,同时使用一个记分函数,损失函数margin loss或者交叉熵函数之前tl 理论0-1损失函数,没有办法解释我们现在常用的损失函数的。也没有办法使用常见的模型,引入 scoring fun,定义margin公式2本页。如果预测是错误的y’不等于y,找到错误的label中最大的预测值,最大的logit,用它来定义一个margin loss。
VALSE2019 龙明盛老师speech
结合二者就会得到,加强版的DD,仍然考虑对G’取上限,不考虑G。如果考虑G,会在非常大的空间上做遍历,非常强不容易做。
VALSE2019 龙明盛老师speech
推导了迁移学习的泛化误差界,使用的是Rademacher Complexity。公式17,使用margin loss 和scoring fun算出来的,跟常见的模型是一致的。有趣的结果,泛化误差和margin是成反比的,margin比较大的时候泛化误差是比较好的。和经典的间隔理论是一致的。
VALSE2019 龙明盛老师speech
基于理论提出新 模型公式19,找到G使得经验风险和DD达到最小。同时G’使得达到最大。做了evaluation。
在()数据上取得了74.6的成绩。

相关文章:

  • 2021-09-30
  • 2021-12-29
  • 2022-12-23
  • 2021-11-02
  • 2021-11-22
  • 2021-07-12
  • 2019-02-18
猜你喜欢
  • 2021-12-19
  • 2021-12-03
  • 2021-11-13
  • 2021-05-05
  • 2022-01-04
  • 2021-06-06
  • 2021-05-28
相关资源
相似解决方案