Towards Making the Most of BERT in Neural Machine Translation
目的:如何更好的使用预训练模型?—>微调效果并不好;上一篇笔记中的方法将BERT embeddings作为encoder的初始化或者中间的嵌入比较适用于低资源的情况,在高资源情况下由于训练中的太多更新,会导致遗忘。
方法:
(1)Asymptotic Distilation:预训练模型做老师,encoder做学生,计算预训练模型hidden state和encoder top layer state的MSE loss。
(2)Dynamic Switch:门控单元控制给多少预训练模型的东西给encoder。
(3)learning rate的设置。
Reinforced Curriculum Learning on Pre-trained Neural Machine Translation Models
***课程学习(Curriculum Learning)*主要思想是模仿人类学习的特点,由简单到困难来学习课程(在机器学习里就是容易学习的样本和不容易学习的样本),这样容易使模型找到更好的局部最优,同时加快训练的速度。根据训练样本训练的难易程度,给不同难度的样本不同的权重,一开始给简单的样本最高权重,他们有着较高的概率,接着将较难训练的样本权重调高,最后样本权重统一化了,直接在目标训练集上训练。
问题:NMT现有Curriculum Learning方法的局限性在于,它们仅在“从零开始学习”的情况下解决批次选择问题,如何在预训练模型和训练数据上利用Curriculum Learning。
方法:从现有数据集中找出可进一步改进nmt模型的数据,并将其再次提供给模型。使用强化学习方法
Fine-Tuning by Curriculum Learning for Non-Autoregressive Neural Machine Translation
问题:直接利用微调将AT模型转为NAT模型效果不好.
方法:将Curriculum Learning融合进微调过程。利用Curriculum learning的机制,由易(AT)到难(NAT),来更好的进行微调。
(1)decoder input;(2)attention mask
Improving Context-aware Neural Machine Translation with Target-side Context
context-aware nmt:两个编码器:一个编码器用于当前句子,另一个编码器用于先前的句子。
问题:如何利用目标端上下文来改善Context-aware Neural Machine Translation?
三个结论:
目标方上下文与源方上下文一样重要。
源端上下文的有效性取决于语言对。
当前状态和上下文状态之间的权重共享对于context-aware nmt有效。