实时机器翻译的最佳评估方法？答案

【问题标题】：Best evaluation method for real-time machine translation?实时机器翻译的最佳评估方法？
【发布时间】：2017-10-12 02:33:25
【问题描述】：

我知道有许多不同的方法，如 BLEU、NIST、METEOR 等。它们各有优缺点，其效果因语料库而异。我对实时翻译很感兴趣，这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。

这算作什么样的语料库？文本是否会被认为太短而无法通过大多数传统方法进行正确评估？说话者不断切换的事实是否会使上下文更加困难？

【问题讨论】：

stackoverflow.com/questions/43943674/… 的副本

标签： nlp precision-recall machine-translation

【解决方案1】：

您的语料库可以是聊天或问答类型。如果您有很多可用的句子建议，那么您可以尝试https://gitlab.com/Bachstelze/translation-metric/tree/master/ 它是句子级别的向量空间模型方法，因此您不必学习特定语言的系统，只要句子不要太短，说话者之间的切换应该不是问题。

【讨论】：

【解决方案2】：

您所要求的，属于置信度估计领域，现在（在机器翻译（MT）社区内）更广为人知的是质量估计，即“在不访问参考翻译的情况下为 MT 输出分配分数”。

对于 MT 评估（使用 BLEU、NIST 或 METEOR），您需要：

假设转换（MT 输出）
参考翻译（来自测试集）

在您的情况下（实时翻译），您没有 (2)。因此，您必须根据源句的特征和假设翻译以及您对机器翻译过程的了解来估计系统的性能。

一个具有 17 个特征的基线系统描述于：

Specia, L.、Turchi, M.、Cancedda, N.、Dymetman, M. 和 Cristianini, N. (2009b)。估计机器翻译系统的句子级质量。第 13 届欧洲机器翻译协会会议，（第 28-37 页）
你可以找到here

质量估计是一个活跃的研究课题。可以在 WMT 会议的网站上了解最新进展。查找 Quality Estimation 共享任务，例如http://www.statmt.org/wmt17/quality-estimation-task.html

【讨论】：