1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training

标签: multi-domain language; fine-tuned

1.1 主模型

distill论文总结(未待续)

  • 训练出一种模型,可以在不同种类的语言模型中进行fine-tuned。
    为避免在下一种模型中训练时会遗忘掉上一种训练的模型,引入continual learning ,使用三种方法:
    (i) elastic weight con- solidation (EWC)
    (ii) learning rate control (LRC)
    (iii) experience replay (ER)

1.2 实验

distill论文总结(未待续)
distill论文总结(未待续)
task domain:

  1. generic domain understanding:
    GLUE; QA (from SQuAD);NER (CoNLL)
  2. bio-medical performance:
    BC5CDR (NER);Chemprot (RE);BioASQ (QA)

2. Knowledge Distillation for BERT Unsupervised Domain Adaptation

标签:distillation;unsupervised domain-adaptation

2.1 主模型

distill论文总结(未待续)
step1: 在已经标签的数据上进行fine-tuned
step2: 将第一步训练fine-tuned好的bert的weight作为target bert 的初始化,将adversarial learning和knowledge distillation 一起作用在target bert上
step3: 在test encoder上面检验目标数据

BERT模型预处理源域数据,提取相应特征,然后运用distillation技术实现源域知识到目标域知识的迁移,从而达到目标域的情感分类任务。

2.2 实验

数据集:
Airline review dataset;IMDB dataset;Amazon reviews datasets (which contain four domains: books (B), dvds (D), electronics (E) and Kitchen appliances (K))
distill论文总结(未待续)
对于30组cross-domain sentiment classification tasks进行实验distill论文总结(未待续)
baseline:DistilBERT;RoBERT

3. Gradient Regularized Contrastive Learning for Continual Domain Adaptation

标签:Contrastive Learning;Domain Adaptation

3.1 主模型

使用Gradient Regularized Contrastive Learning来解决domain shifts和catastrophic forgetting

  1. 使得 Contrastive loss的梯度不去增加在具有很强区分学习能力的domain上训练出来的loss
  2. 新domain不去增加旧domain训练出来的lossdistill论文总结(未待续)

3.2 实验

由于是图像处理,可以先排除

4. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS

4.1 模型

每次需要添加某种新的"知识"时,又需要重新预训练整个模型,这可能会导致之前"知识"的遗忘。

本文对Roberta模型的参数不微调。对每一种"知识"定义一种新的Adapter,并定义不同的预训练任务,每次训练对应的Adapter。这样每种"知识"都可以通过其对应的Adapter学习到。

distill论文总结(未待续)

Adapter Layer由三部分组成,包括一个全连接层 + N层Transformer Encoder Layer + 一个全连接层。

将Roberta除最后一层以外的每一层的输出,传给Adapter对应的层,(即M层Transformer Layer,则存在K层Adapter Layder)。

对于单个Adapter的情况,最后将Roberta 最后一层的特征与Adapter最后一层的特征拼接,传给预训练任务。

而对于多个Adapter的情况,以两个为例,将Roberta 最后一层的特征与Adapter1和Adapter2的最后一层的特征拼接,传给预训练任务。

实验时,采用N = 2, M = 24, K = {0, 11, 23},可能是每一层或每两层Roberta Transformer Layer过一层Adapter Layer。

文中定义了两种不同的Adapter:

Factual Adapter: 在T-REx的数据集上预训练。关系分类任务,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。取出其中给定的两个的entity的特征,并过一层pooling layer,最后拼接两个entity的特征,并执行Relation Classification任务。
Linguistic Adapter: 预训练任务,dependency relation prediction,即预测给定句子中每一个单词的父节点位置,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。对于每一个单词的特征,接一个线性层,完成多分类任务。

4.2 实验

knowledge-specific adapter
在三个方向上做实验:entity typing, question answering and relation classification
distill论文总结(未待续)distill论文总结(未待续)
distill论文总结(未待续)

5. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers

本文提出了一种将基于 Transformer 的预训练大模型压缩成预训练小模型(更少的层数和更小的隐层维度)的通用方法:深度自注意力知识蒸馏(Deep Self-Attention Distillation)。其核心思想是最大程度上将预训练 Transformer 模型中非常重要的自注意力(Self-Attention)知识迁移给小模型。需要特别提出的是,我们只迁移预训练大模型最后一层的自注意力知识。该方法主要有以下几个优点:

(1)压缩方法简单有效,可以应用在不同的预训练 Transformer 模型上。不同模型上的实验结果也验证了这一点。
(2) 只需迁移大模型最后一层的自注意力知识,将迁移的知识进一步简化,提升训练速度。
(3) 对小模型层数和隐层大小没有限制,让小模型的结构更加灵活。
distill论文总结(未待续)

相关文章: