AAAI 2020 阅读论文笔记

Towards Making the Most of BERT in Neural Machine Translation

目的：如何更好的使用预训练模型？—>微调效果并不好；上一篇笔记中的方法将BERT embeddings作为encoder的初始化或者中间的嵌入比较适用于低资源的情况，在高资源情况下由于训练中的太多更新，会导致遗忘。

方法：
AAAI 2020 阅读论文笔记
（1）Asymptotic Distilation：预训练模型做老师，encoder做学生，计算预训练模型hidden state和encoder top layer state的MSE loss。
（2）Dynamic Switch：门控单元控制给多少预训练模型的东西给encoder。
（3）learning rate的设置。
AAAI 2020 阅读论文笔记

Reinforced Curriculum Learning on Pre-trained Neural Machine Translation Models

***课程学习（Curriculum Learning）*主要思想是模仿人类学习的特点，由简单到困难来学习课程（在机器学习里就是容易学习的样本和不容易学习的样本），这样容易使模型找到更好的局部最优，同时加快训练的速度。根据训练样本训练的难易程度，给不同难度的样本不同的权重，一开始给简单的样本最高权重，他们有着较高的概率，接着将较难训练的样本权重调高，最后样本权重统一化了，直接在目标训练集上训练。

问题：NMT现有Curriculum Learning方法的局限性在于，它们仅在“从零开始学习”的情况下解决批次选择问题，如何在预训练模型和训练数据上利用Curriculum Learning。

方法：从现有数据集中找出可进一步改进nmt模型的数据，并将其再次提供给模型。使用强化学习方法

AAAI 2020 阅读论文笔记

Fine-Tuning by Curriculum Learning for Non-Autoregressive Neural Machine Translation

问题：直接利用微调将AT模型转为NAT模型效果不好.
方法：将Curriculum Learning融合进微调过程。利用Curriculum learning的机制，由易（AT）到难（NAT），来更好的进行微调。
AAAI 2020 阅读论文笔记

（1）decoder input；（2）attention mask

AAAI 2020 阅读论文笔记

Improving Context-aware Neural Machine Translation with Target-side Context

context-aware nmt：两个编码器：一个编码器用于当前句子，另一个编码器用于先前的句子。

问题：如何利用目标端上下文来改善Context-aware Neural Machine Translation？

三个结论：
目标方上下文与源方上下文一样重要。
源端上下文的有效性取决于语言对。
当前状态和上下文状态之间的权重共享对于context-aware nmt有效。

AAAI 2020 阅读论文笔记