神经机器翻译(NMT)的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、尼泊尔语这些小语种,无法提供足够多的双语数据,更极端的现实情况是,有些语言几乎没有任何双语预料,这种情况下NMT就无能为力了。
松散定义:当并行句子数量在10,000或更少时,可以认为语言对资源不足。注:现代NMT系统现在有数亿个参数!
挑战:
数据: 来源数据、评估数据集
建模:不清晰的学习范式、领域适应、模型泛化能力
Why Low Resource MT Is Interesting?
- 它是关于用较少标记的数据进行学习。
- 它是关于建模结构化输出和组合学习。
- 这确实是一个需要解决的问题
数据收集的挑战
- 非常昂贵和缓慢。
- 很难产生高质量的翻译
监督式学习
半监督学习
添加目标端单语言数据。两个好处:a)解码器学会了一个好的语言模型。b)通过数据的增加,有更好的泛化效果。与ST不同,目标是正确的,但是输入是错误的
添加源端和目标端单语言数据,相当于是上图的循环编解码
多任务学习
多语言NMT(Multilingual NMT)带有一种归纳性偏见,即“从一种语言学习的信号应该有利于提高翻译到其他语言的质量”。与所有语言对共享相同的编码器和相同的解码器。在源句前添加目标语言标识符,以告知译码器所需的语言。将所有数据集连接在一起。使用标准的交叉熵损失进行训练。
无监督方法