【课程笔记-李宏毅ML】transfer learning

模型微调

目标领域的数据较少，例如在语音识别领域，可以通过source data来训练一个模型，然后使用target data的数据进行参数微调。
需要注意target data很少，容易过拟合

conservative training

【课程笔记-李宏毅ML】transfer learning
用source data训练的模型参数来初始化target data的模型，然后用target data的数据进行微调（GD的时候只更新几个epoch)，但是由于target data的数据比较少，就很容易发生过拟合的问题。
有一些措施来避免这些问题：1.令两个模型的输出比较接近
2.用target data的模型参数做正则化，令两个模型的参数比较接近
3.在训练时进行一些限制，如在参数微调时，只微调某些参数（如下）
【课程笔记-李宏毅ML】transfer learning
有一个问题：应该调哪些参数呢？
语音方面：往往只调第一层的参数（或者是比较接近input的layer的参数。为啥：不同人说话有所不同，但当神经网络将其进行初步解析之后，后面的识别应该大致相同，故通常的做法时只调节靠近input层的参数）
影像方面：往往固定靠近input的layer的参数，调节后面的参数（因为在影响方面前几层侦测的往往是比较基本的特征，如线条或简单图案等，这些基本的几何特征对于不同的task可以是通用的，所以一般在影像方面通常固定前几层，只微调后面测参数）
一个例子：
【课程笔记-李宏毅ML】transfer learning
（这个例子的结果表示，在图像方面，只有第一个layer是两个task可以共用的，后面的结果越来越差了）

multitask learning

训练一个模型可以完成多个任务
通常结构如下：
【课程笔记-李宏毅ML】transfer learning

多任务学习——多语音识别

【课程笔记-李宏毅ML】transfer learning
共用前几层的结构，因为人类的声音信号都是一样的。
多任务学习有一个问题是：模型学会任务A之后，再去学习任务B，那么可能会发生学会任务B之后，A不会了。改进如下：

progressive neural networks

【课程笔记-李宏毅ML】transfer learning
这存在一个问题是，随着任务的增加，input越来越多，模型参数也越来越多。
改进如下：

这个方法好像是说，开始就找一个很大的网络，训练task1的时候，限制其只能使用网络中的部分参数，训练完毕后固定住，然后去训练task2…

fine-tuning和multitask learning的target data和source data都是有label的，如果target data的数据没有label怎么办？
【课程笔记-李宏毅ML】transfer learning
问题描述：target data没有标签，就很像source data是训练数据，而target data是测试数据，在source 上训练一个模型，在target上测试，但是因为target和source的数据分布是不同的，模型的效果就会不好。这就有了

Domain-adversarial training

(有点像GAN，主要是想把source data 和target data 转到同样的domain，让他们有类似的、接近的分布）
【课程笔记-李宏毅ML】transfer learning
希望feature extractor层从source 和 target 提取出来的特征有相似的分布（混在一起的那种），再令一个网络，domain classifier ，将feature输入其中，domain classifier 输出这个feature 来自哪一个域，我们的目的是希望feature可以骗过domain classifer。然后再增加一个网络，label predictor，来实现分类。也就是说，feature同时输入两个网络，一个用来预测标签，一个用来使不同域data有相似的特征分布。如下
【课程笔记-李宏毅ML】transfer learning
如何实现：

一些实验的结果：

zero-shot learning

source 和 target 的数据使很不同的task。
【课程笔记-李宏毅ML】transfer learning
再语音识别领域如何解决这种问题？（测试数据从来没有在训练数据中出现过，如一个单词只出现在测试数据中，没有出现在训练数据中。）
答：找出比词汇更小的单位。音素。通过辨识因素，再组合词汇，来解决这种问题。
【课程笔记-李宏毅ML】transfer learning 用其特征来表示每一组类别
训练模型，不直接进行分类，转而判断其是否包含某些属性。
在测试的时候不直接预测类别，输出这个测试样本包含哪些属性，然后通过属性找到其对应的类别。
另一种做法是将样本和样本属性同时映射在一个空间中，映射函数可以是NN，希望某一类样本向量与其属性向量越接近越好。
【课程笔记-李宏毅ML】transfer learning

loss：如果仅仅希望两者比较接是有问题的，比如，两个映射都输出0，显然模型效果很差，所以我们希望，最小化样本与其对应的属性向量之间的距离，同时最大化样本和其他属性向量之间的距离。同时引入k，
那如果没有数据集怎么办，可以直接对类别名称进行word embedding，令其代表属性向量，如下：
【课程笔记-李宏毅ML】transfer learning
如果training的数据一个都没有怎么办？直接拿一个现成的NN，如下：输入图片后，获得输出（0.5，0.5），然后在word embedding的空间中计算0.5Vtiger+0.5lion,根据结果找与其最接近的词向量。

翻译的例子：
【课程笔记-李宏毅ML】transfer learning

【课程笔记-李宏毅ML】transfer learning