【问题标题】:How to deal with punctuations in machine translation如何处理机器翻译中的标点符号
【发布时间】:2017-10-17 15:39:52
【问题描述】:

只是好奇人们通常如何处理机器翻译中的标点符号。

例如,从语言 A 到 B 我们可能有:

A: a b c d e f g
B: x y z, u v w

我想知道我们如何处理语言 B 中的逗号?假设如果我们使用 seq2seq 模型,我们应该简单地删除它,还是我们也应该为它生成嵌入并像对待其他词一样对待逗号?

如果我没有遗漏任何内容,我认为目前还没有论文明确提及它。

【问题讨论】:

    标签: machine-translation


    【解决方案1】:

    Seq2Seq 的一个很好的应用是机器翻译。

    在英语->德语的情况下,我们会看到需要额外逗号的德语句子,例如

    CN:我开枪打死他是因为上校告诉我的。

    DE: Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte。

    一个好的模型会自动学习weil 之前的第一个子句(因为)需要一个逗号才能符合语法。

    应该不需要事先进行额外的预处理。

    【讨论】:

    • 感谢您的回答@alvas!然后是一个后续问题,我们是否需要任何嵌入来表示逗号(和其他标点符号)?
    • 深思:标点符号和语言中的单词一样重要吗?大多数机器学习模型不区分句子中存在哪种标记。只要句子被标记化,任何被空格分隔的(单词/标点符号/表情符号/字节码)都将被视为标记;P
    • 我明白了。因此,如果我正确理解您的 cmets,我们不会在模型中区分单词和标点符号。我们应用于常规单词的任何技术都可以同样应用于标点符号。这种理解正确吗?
    • 是的,“我们应用于常规单词的任何技术都可以同样应用于标点符号”。但是,正确的道路是一个问号和一个开放的研究问题吗=)
    猜你喜欢
    • 1970-01-01
    • 2014-05-21
    • 2019-08-12
    • 1970-01-01
    • 2020-04-01
    • 2012-02-08
    • 2023-03-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多