distill论文总结（未待续）

1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training
- 1.1 主模型
- 1.2 实验
2. Knowledge Distillation for BERT Unsupervised Domain Adaptation
- 2.1 主模型
- 2.2 实验
3. Gradient Regularized Contrastive Learning for Continual Domain Adaptation
- 3.1 主模型
- 3.2 实验
4. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS
- 4.1 模型
- 4.2 实验
5. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers

1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training

标签： multi-domain language; fine-tuned

1.1 主模型

distill论文总结（未待续）

训练出一种模型，可以在不同种类的语言模型中进行fine-tuned。
为避免在下一种模型中训练时会遗忘掉上一种训练的模型，引入continual learning ，使用三种方法：
(i) elastic weight con- solidation (EWC)
(ii) learning rate control (LRC)
(iii) experience replay (ER)

1.2 实验

distill论文总结（未待续）

task domain:

generic domain understanding：
GLUE； QA (from SQuAD)；NER (CoNLL)
bio-medical performance:
BC5CDR (NER)；Chemprot (RE)；BioASQ (QA)

2. Knowledge Distillation for BERT Unsupervised Domain Adaptation

标签：distillation；unsupervised domain-adaptation

2.1 主模型

distill论文总结（未待续）
step1: 在已经标签的数据上进行fine-tuned
step2: 将第一步训练fine-tuned好的bert的weight作为target bert 的初始化，将adversarial learning和knowledge distillation 一起作用在target bert上
step3: 在test encoder上面检验目标数据

BERT模型预处理源域数据，提取相应特征，然后运用distillation技术实现源域知识到目标域知识的迁移，从而达到目标域的情感分类任务。

2.2 实验

数据集：
Airline review dataset；IMDB dataset；Amazon reviews datasets （which contain four domains: books (B), dvds (D), electronics (E) and Kitchen appliances (K)）
distill论文总结（未待续）
对于30组cross-domain sentiment classification tasks进行实验
baseline：DistilBERT；RoBERT

3. Gradient Regularized Contrastive Learning for Continual Domain Adaptation

标签：Contrastive Learning；Domain Adaptation

3.1 主模型

使用Gradient Regularized Contrastive Learning来解决domain shifts和catastrophic forgetting

使得 Contrastive loss的梯度不去增加在具有很强区分学习能力的domain上训练出来的loss
新domain不去增加旧domain训练出来的loss

3.2 实验

由于是图像处理，可以先排除

4. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS

4.1 模型

每次需要添加某种新的"知识"时，又需要重新预训练整个模型，这可能会导致之前"知识"的遗忘。

本文对Roberta模型的参数不微调。对每一种"知识"定义一种新的Adapter，并定义不同的预训练任务，每次训练对应的Adapter。这样每种"知识"都可以通过其对应的Adapter学习到。

distill论文总结（未待续）

Adapter Layer由三部分组成，包括一个全连接层 + N层Transformer Encoder Layer + 一个全连接层。

将Roberta除最后一层以外的每一层的输出，传给Adapter对应的层，(即M层Transformer Layer，则存在K层Adapter Layder)。

对于单个Adapter的情况，最后将Roberta 最后一层的特征与Adapter最后一层的特征拼接，传给预训练任务。

而对于多个Adapter的情况，以两个为例，将Roberta 最后一层的特征与Adapter1和Adapter2的最后一层的特征拼接，传给预训练任务。

实验时，采用N = 2, M = 24, K = {0, 11, 23}，可能是每一层或每两层Roberta Transformer Layer过一层Adapter Layer。

文中定义了两种不同的Adapter:

Factual Adapter: 在T-REx的数据集上预训练。关系分类任务，输入为句子，输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。取出其中给定的两个的entity的特征，并过一层pooling layer，最后拼接两个entity的特征，并执行Relation Classification任务。
Linguistic Adapter: 预训练任务，dependency relation prediction，即预测给定句子中每一个单词的父节点位置，输入为句子，输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。对于每一个单词的特征，接一个线性层，完成多分类任务。

4.2 实验

knowledge-specific adapter
在三个方向上做实验：entity typing, question answering and relation classification
distill论文总结（未待续）

5. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers

本文提出了一种将基于 Transformer 的预训练大模型压缩成预训练小模型（更少的层数和更小的隐层维度）的通用方法：深度自注意力知识蒸馏（Deep Self-Attention Distillation）。其核心思想是最大程度上将预训练 Transformer 模型中非常重要的自注意力（Self-Attention）知识迁移给小模型。需要特别提出的是，我们只迁移预训练大模型最后一层的自注意力知识。该方法主要有以下几个优点：

(1）压缩方法简单有效，可以应用在不同的预训练 Transformer 模型上。不同模型上的实验结果也验证了这一点。
(2）只需迁移大模型最后一层的自注意力知识，将迁移的知识进一步简化，提升训练速度。
(3）对小模型层数和隐层大小没有限制，让小模型的结构更加灵活。
distill论文总结（未待续）

目录

1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training

1.1 主模型

1.2 实验

2. Knowledge Distillation for BERT Unsupervised Domain Adaptation

2.1 主模型

2.2 实验

3. Gradient Regularized Contrastive Learning for Continual Domain Adaptation

3.1 主模型

3.2 实验

4. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS

4.1 模型

4.2 实验

5. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers