模型微调
目标领域的数据较少,例如在语音识别领域,可以通过source data来训练一个模型,然后使用target data的数据进行参数微调。
需要注意target data很少,容易过拟合
conservative training
用source data训练的模型参数来初始化target data的模型,然后用target data的数据进行微调(GD的时候只更新几个epoch),但是由于target data的数据比较少,就很容易发生过拟合的问题。
有一些措施来避免这些问题:1.令两个模型的输出比较接近
2.用target data的模型参数做正则化,令两个模型的参数比较接近
3.在训练时进行一些限制,如在参数微调时,只微调某些参数(如下)
有一个问题:应该调哪些参数呢?
语音方面:往往只调第一层的参数(或者是比较接近input的layer的参数。为啥:不同人说话有所不同,但当神经网络将其进行初步解析之后,后面的识别应该大致相同,故通常的做法时只调节靠近input层的参数)
影像方面:往往固定靠近input的layer的参数,调节后面的参数(因为在影响方面前几层侦测的往往是比较基本的特征,如线条或简单图案等,这些基本的几何特征对于不同的task可以是通用的,所以一般在影像方面通常固定前几层,只微调后面测参数)
一个例子:
(这个例子的结果表示,在图像方面,只有第一个layer是两个task可以共用的,后面的结果越来越差了)
multitask learning
训练一个模型可以完成多个任务
通常结构如下:
多任务学习——多语音识别
共用前几层的结构,因为人类的声音信号都是一样的。
多任务学习有一个问题是:模型学会任务A之后,再去学习任务B,那么可能会发生学会任务B之后,A不会了。改进如下:
progressive neural networks
这存在一个问题是,随着任务的增加,input越来越多,模型参数也越来越多。
改进如下:
这个方法好像是说,开始就找一个很大的网络,训练task1的时候,限制其只能使用网络中的部分参数,训练完毕后固定住,然后去训练task2…
fine-tuning和multitask learning的target data和source data都是有label的,如果target data的数据没有label怎么办?
问题描述:target data没有标签,就很像source data是训练数据,而target data是测试数据,在source 上训练一个模型,在target上测试,但是因为target和source的数据分布是不同的,模型的效果就会不好。这就有了
Domain-adversarial training
(有点像GAN,主要是想把source data 和target data 转到同样的domain,让他们有类似的、接近的分布)
希望feature extractor层从source 和 target 提取出来的特征有相似的分布(混在一起的那种),再令一个网络,domain classifier ,将feature输入其中,domain classifier 输出这个feature 来自哪一个域,我们的目的是希望feature可以骗过domain classifer。然后再增加一个网络,label predictor,来实现分类。也就是说,feature同时输入两个网络,一个用来预测标签,一个用来使不同域data有相似的特征分布。如下
如何实现:
一些实验的结果:
zero-shot learning
source 和 target 的数据使很不同的task。
再语音识别领域如何解决这种问题?(测试数据从来没有在训练数据中出现过,如一个单词只出现在测试数据中,没有出现在训练数据中。)
答:找出比词汇更小的单位。音素。通过辨识因素,再组合词汇,来解决这种问题。用其特征来表示每一组类别
训练模型,不直接进行分类,转而判断其是否包含某些属性。在测试的时候不直接预测类别,输出这个测试样本包含哪些属性,然后通过属性找到其对应的类别。
另一种做法是将样本和样本属性同时映射在一个空间中,映射函数可以是NN,希望某一类样本向量与其属性向量越接近越好。
loss:如果仅仅希望两者比较接是有问题的,比如,两个映射都输出0,显然模型效果很差,所以我们希望,最小化样本与其对应的属性向量之间的距离,同时最大化样本和其他属性向量之间的距离。同时引入k,
那如果没有数据集怎么办,可以直接对类别名称进行word embedding,令其代表属性向量,如下:
如果training的数据一个都没有怎么办?直接拿一个现成的NN,如下:输入图片后,获得输出(0.5,0.5),然后在word embedding的空间中计算0.5Vtiger+0.5lion,根据结果找与其最接近的词向量。
翻译的例子: