VALSE2019 龙明盛老师speech

真的是闲的看视频敲的。
Transfer Learning From Algorithms to Theories and Back
http://ise.thss.tsinghua.edu.cn/~mlong/doc/transfer-learning-talk-valse19.pdf

迁移学习知识
机器学习的重要目标是从数据中学习模型，数据实际上是有分布的，关于特征x和标签y的联合分布。目标域的期望风险可以被训练数据的经验风险和sample capacity界定。
迁移学习source domain分布p 和td 分布q不一样，在大规模数据上预训练的模型能够有一个比较好的迁移能力，但这往往只是一个相对经验性的结果，
从分布的匹配角度说，迁移学习的根本问题是如何将两个domain中，分布进行适配。不容易，因为数据的分布非常的复杂。迁移学习中有一个主流的方法叫做对抗学习。通过confuse判别器，判别器分不开，就认为这两个分布是近似的。但GAN网络的很多研究成果告诉我们得到的分布并不是一个非常好的匹配。需要考虑更多的信息，比如正则化的方法，conditional方法，才能使得分布匹配得比较好。换句话说，如果我们只考虑边缘分布匹配，这对迁移学习实际上来说是不够的。另外一类比较经典的kernel embedding方法，叫做非参数化的方法。这类方法在深度学习出来之前，用核方法非参数的方法来定义一些领域之间差异的度量，这种度量通常叫做统计距离。使得统计距离最小的时候得到的特征就是一个比较好的特征。两类方法
VALSE2019 龙明盛老师speech

第一个是比较早的工作，主要考虑的是特征的分布不一样的时候。ICML2015，传统的统计学习的方法在TL学习中的应用，公式1最大均值散度特征映射将数据从原始空间映射到高纬空间，在这个高纬空间分别计算P和Q的期望。高纬空间中的期望，等价于低维空间中的期望方差斜度以及各阶momentum，整个数据分布有一个矩函数。自变量的各个order下的期望，等价于moments matirc矩匹配，如果分布PQ 所有阶次的矩函数是相等的，就认为dk 能够达到最小。基于这个考虑，这个工作中就提出了minmax包括两部分，mean game学到一个深度网络，参数是theta，在这个深度网络的表征之下，距离d达到了最小，就是统计距离最小的时候分布就接近。同时有一个核函数，multi-kernel learning找到最好的核函数k，在k下使得距离达到最大。为什么要考虑这一点呢？因为实际上很容易找到核函数k使得公式1代表的距离是0，因此一定会存在一个最优的核函数k使得这个距离达到最大。当距离对于两个domain的非常细小的差异都能够给出一个距离的时候，说明这个距离能够捕捉两个分布的微小的差异，认为这个时候去最小化这个距离是安全的。如果说两个domain差异比较大，距离缺比较小，这个时候去最小化这个距离实际上已经不太安全了。这就是我们提出min-max game的一个考量。当时在做这个工作的时候还没太注意到GAN的一系列工作。如果说我们这个工作和对抗学习有什么区别的话，它的max game 是一个非参数化的学习。公式1的kernel不带有任何的参数，除了多个kernel的combination的系数之外，并不带有其他可学习的参数。所以说它主要是一个非参数化的min-max game。
VALSE2019 龙明盛老师speech
提出一个用多核学习来学到一个更好的统计距离，公式3 MMD距离取k是在公式4中多核组合combine情况下就可以得到一个更好的统计距离。MMD的理论成果经典文章(Kernel Two-Sample Test (Gretton et al. 2012)。当这个距离是0的时候，当且仅当分布接近的时候，这个工作也是在这个理论指导之下进行的。两件事情，第一件事情特征学习。
VALSE2019 龙明盛老师speech
找到一个特征使得分类误差和距离都尽量地达到最小。核方法最讨厌的是什么，它是二次复杂性，所以在我们的工作中我们考虑了一个线性复杂性的算法，MMD的计算是只依赖核函数的期望，它并不依赖所有的核函数的值，可以很简单地给期望做一个sub-sample的无偏估计。这个时候可以很容易地把这个问题变成一个线性复杂性的问题。就不展开说了。
VALSE2019 龙明盛老师speech
另外一块就是kernel learning。通过多核学习学到一个最好的kernel使这个距离达到最大，公式6里面除了使这个距离最大还除以了一个thegema的平方。规范化之后的距离达到最大，可以将方差信息也都嵌入到学习中来，最后得到公式7二次规划问题将kernel学出来。
VALSE2019 龙明盛老师speech
NIPS2018条件分布不一样的时候，提出了条件式领域对抗网络。基本的motivation是比较简单的。还是和前面类似。我们要做分布的匹配的时候，我们要捕捉的是分布的统计量。前面我们捕捉的是均值方差和矩函数，这里我们捕捉交叉的互方差。为什么要考虑互方差，实际上也是由kernel embedding这个领域一系列理论工作来做的。举一个简单的例子，我们同时将特征x和label y他们考虑在一起的时候有两种方法。第一种非常常见的将x和y contact在一起。求解x和y contact期望，实际上是x的期望和y的期望的contact。这不是我们特别关心的，关心的是x和y之间的相互关系。所谓的联合分布本质上是x 和y的相互关系。我并不care x是什么，y是什么，它们独立在一起我并不关心。所以说引入的多线性算子是kernel embedding领域的理论结果。如果对x和y做多线性 map，再去计算期望和方差，发现即便是在线性的情况下，期望都是所有的class conditional distribution的contact。当y=1第一个类的multinal分布，和第二个类的multinal分布的时候，以及第c个类的multinal分布的contact。这个时候得到的结果捕捉到了所有的x和y的dependency的关系。在这个框架下不需要分别地考虑P(x|y)每一类。
VALSE2019 龙明盛老师speech

方法非常简单，就做了一点微小的工作。领域对抗的方法是有一个feature层f，分类器的输出G是softmax的输出，不是pseudo label不做任何的argmax，会带来信息的损失，很难再有理论上的保证。我们考虑的是任意的一个特征层和分类器层输出，他们都是continues 的distribution。我们只做了一个很简单的变换，就是将f和classify prediction的G bilinear在一起，然后将结果输入到域对抗模型中，公式8。损失函数是公式9，判别器损失函数最大，说明分布不能被判别函数分开。
VALSE2019 龙明盛老师speech
数学性的复杂度比较高，随机性映射，公式11为9和10的近似。NIPS2018ALIN的成名之作。随机化方法解决维度比较高的情况。Rf，Rg 是两个random矩阵，随机生成一个在训练中保持不变。保证多线性mapping不会（crimidem音）爆炸。
VALSE2019 龙明盛老师speech
为了提升性能考虑到entropy，迁移学习领域的常用的一个trick。Entropy，我们的工作最早NIPS2016首次使用，半监督学习里的经典方法。公式13，entropy比较大说明预测结果具有比较高的不确定性，认为预测是比较不准的。看图。所以引入entropy weighting对领域的对抗性加权，entropy大的样本加权中考虑得少一些，因为这样的样本属于hard eg。
VALSE2019 龙明盛老师speech
得到的CDAN也是一个minmax game。Entropy使得hard eg 不会break model。直接把xy contact在一起没有效果，这也是逼着我们提出这样的方法。

前面的工作是from 算法的角度。那么人们往往会想怎么样将算法的角度和理论的角度做brige，融合。首先考虑前面提出的方法是不是有理论保证的。Source risk，target risk就是在Q上的期望风险，定义两个分歧度，s disparity和t disparity度量的是给定任意两个假设G和G’，在source上不一致的概率。如果能找到一个假设控制s和t的分歧度，就可以利用这个假设来brige，将s和t的期望关联起来。
迁移学习中基本的假设
VALSE2019 龙明盛老师speech
是在s上的期望风险。如果存在一个理想假设G使得在s和t上的期望风险之和达到最小，认为这是一个比较容易的tl。实际上是没有办法计算的，只能假设比较小，理论分析的困境。如图所示。

将s和t risk关联起来。三角不等式公式18。只要考虑G和最好的G*的分歧度，就能将s和t risk联系到一起，再做一些简单的放缩。T risk可以被s risk以及第二项理论假设误差，加上s 分歧度与t上的分歧度。我们通常会假设方括号里面的这一项是比较小的。目标是去界定第三项，定义为分布差异。两种方法界定。一，HH divergence经典。

VALSE2019 龙明盛老师speech

VALSE2019 龙明盛老师speech 还有一种我们的工作中提出的disparity discrepancy。这两个discrepancy实际上差距也非常小，如果说能够找到红色的公式，让上界达到最小。最小化第三项只需要最小化第三项的上界。
遍历G和G’,就界定了目标的风险。因为公式中的G是不知道的，假设中存在的，既然不知道就不能去优化它。但是一旦找到了上界，这个G和G’就是假设空间中的任意一个假设，不一定是最好的一个，当然可以找到一个优化算法在假设空间中做搜索，简化。我们发现这样做有点浪费。只关心G，不需要求G上界，G是分类器，可以通过s domain来学习它。微小的变化带来了性能上的变化。为什么我们要从理论上去分析这件事情。
用DD代替对称差divergence，对称差d存在了快十年了。Dd可以被领域判别器界定。领域判别器输入是f和g，CDAN模型的风险能被DD界定住。大家经常不敢用分类器的输出来做，为什么呢，审稿人会说这是个pseudo label，没有保证。但是我们这个工作证明了，当用的不是pseudo label，而是G，不用argmax，这个时候它是可以被界定住的。不奇怪，半监督学习领域，我们提出会给分类器加上各种正则化，并没有对pseudo label加正则化，对分类器的函数加正则化。在这种情况下，分类器的预测值是可以被使用的，这可能是之前的一个误区。
VALSE2019 龙明盛老师speech
新的工作，前面先找一个算法再找理论保证。这叫倒着打。现在需要正着打，需要理论分析推导，然后再去最好的迁移学习模型应该是什么样的。更informative的间隔理论。实际要处理的是多分类的问题，同时使用一个记分函数，损失函数margin loss或者交叉熵函数之前tl 理论0-1损失函数，没有办法解释我们现在常用的损失函数的。也没有办法使用常见的模型，引入 scoring fun，定义margin公式2本页。如果预测是错误的y’不等于y，找到错误的label中最大的预测值，最大的logit，用它来定义一个margin loss。
VALSE2019 龙明盛老师speech
结合二者就会得到，加强版的DD，仍然考虑对G’取上限，不考虑G。如果考虑G，会在非常大的空间上做遍历，非常强不容易做。

推导了迁移学习的泛化误差界，使用的是Rademacher Complexity。公式17，使用margin loss 和scoring fun算出来的，跟常见的模型是一致的。有趣的结果，泛化误差和margin是成反比的，margin比较大的时候泛化误差是比较好的。和经典的间隔理论是一致的。
VALSE2019 龙明盛老师speech
基于理论提出新模型公式19，找到G使得经验风险和DD达到最小。同时G’使得达到最大。做了evaluation。
在（）数据上取得了74.6的成绩。