神经机器翻译(NMT)的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、尼泊尔语这些小语种,无法提供足够多的双语数据,更极端的现实情况是,有些语言几乎没有任何双语预料,这种情况下NMT就无能为力了。

    松散定义:当并行句子数量在10,000或更少时,可以认为语言对资源不足。注:现代NMT系统现在有数亿个参数!

    挑战: 

            数据:  来源数据、评估数据集

            建模:不清晰的学习范式、领域适应、模型泛化能力

  Why Low Resource MT Is Interesting?

  •    它是关于用较少标记的数据进行学习。
  •    它是关于建模结构化输出和组合学习。
  •    这确实是一个需要解决的问题

  数据收集的挑战

  •  非常昂贵和缓慢。
  •  很难产生高质量的翻译

 监督式学习

【cs224n-16】Low Resource Machine Translation

半监督学习

【cs224n-16】Low Resource Machine Translation

 

【cs224n-16】Low Resource Machine Translation

 

【cs224n-16】Low Resource Machine Translation

  添加目标端单语言数据。两个好处:a)解码器学会了一个好的语言模型。b)通过数据的增加,有更好的泛化效果。与ST不同,目标是正确的,但是输入是错误的

【cs224n-16】Low Resource Machine Translation

添加源端和目标端单语言数据,相当于是上图的循环编解码

【cs224n-16】Low Resource Machine Translation

多任务学习

【cs224n-16】Low Resource Machine Translation

多语言NMT(Multilingual NMT)带有一种归纳性偏见,即“从一种语言学习的信号应该有利于提高翻译到其他语言的质量”。与所有语言对共享相同的编码器和相同的解码器。在源句前添加目标语言标识符,以告知译码器所需的语言。将所有数据集连接在一起。使用标准的交叉熵损失进行训练。

无监督方法

【cs224n-16】Low Resource Machine Translation

【cs224n-16】Low Resource Machine Translation

相关文章: