【发布时间】:2017-10-17 15:39:52
【问题描述】:
只是好奇人们通常如何处理机器翻译中的标点符号。
例如,从语言 A 到 B 我们可能有:
A: a b c d e f g
B: x y z, u v w
我想知道我们如何处理语言 B 中的逗号?假设如果我们使用 seq2seq 模型,我们应该简单地删除它,还是我们也应该为它生成嵌入并像对待其他词一样对待逗号?
如果我没有遗漏任何内容,我认为目前还没有论文明确提及它。
【问题讨论】:
只是好奇人们通常如何处理机器翻译中的标点符号。
例如,从语言 A 到 B 我们可能有:
A: a b c d e f g
B: x y z, u v w
我想知道我们如何处理语言 B 中的逗号?假设如果我们使用 seq2seq 模型,我们应该简单地删除它,还是我们也应该为它生成嵌入并像对待其他词一样对待逗号?
如果我没有遗漏任何内容,我认为目前还没有论文明确提及它。
【问题讨论】:
Seq2Seq 的一个很好的应用是机器翻译。
在英语->德语的情况下,我们会看到需要额外逗号的德语句子,例如
CN:我开枪打死他是因为上校告诉我的。
DE: Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte。
一个好的模型会自动学习weil 之前的第一个子句(因为)需要一个逗号才能符合语法。
应该不需要事先进行额外的预处理。
【讨论】: