如何处理机器翻译中的标点符号答案

【问题标题】：How to deal with punctuations in machine translation如何处理机器翻译中的标点符号
【发布时间】：2017-10-17 15:39:52
【问题描述】：

只是好奇人们通常如何处理机器翻译中的标点符号。

例如，从语言 A 到 B 我们可能有：

A: a b c d e f g
B: x y z, u v w

我想知道我们如何处理语言 B 中的逗号？假设如果我们使用 seq2seq 模型，我们应该简单地删除它，还是我们也应该为它生成嵌入并像对待其他词一样对待逗号？

如果我没有遗漏任何内容，我认为目前还没有论文明确提及它。

【问题讨论】：

【解决方案1】：

Seq2Seq 的一个很好的应用是机器翻译。

在英语->德语的情况下，我们会看到需要额外逗号的德语句子，例如

CN：我开枪打死他是因为上校告诉我的。

DE： Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte。

一个好的模型会自动学习weil 之前的第一个子句（因为）需要一个逗号才能符合语法。

应该不需要事先进行额外的预处理。

【讨论】：

感谢您的回答@alvas！然后是一个后续问题，我们是否需要任何嵌入来表示逗号（和其他标点符号）？
深思：标点符号和语言中的单词一样重要吗？大多数机器学习模型不区分句子中存在哪种标记。只要句子被标记化，任何被空格分隔的（单词/标点符号/表情符号/字节码）都将被视为标记；P
我明白了。因此，如果我正确理解您的 cmets，我们不会在模型中区分单词和标点符号。我们应用于常规单词的任何技术都可以同样应用于标点符号。这种理解正确吗？
是的，“我们应用于常规单词的任何技术都可以同样应用于标点符号”。但是，正确的道路是一个问号和一个开放的研究问题吗=)