什么是好的机器翻译指标或黄金集答案

【问题标题】：What's a Good Machine Translation Metric or Gold Set什么是好的机器翻译指标或黄金集
【发布时间】：2018-04-06 01:02:52
【问题描述】：

我开始研究对搜索查询进行一些机器翻译，并一直在尝试想出不同的方法来评估我的翻译系统在迭代之间和与其他系统的比较。首先想到的是从一群人那里得到一组来自 mturk 的搜索词的翻译，并说每个都是有效的，或者类似的东西，但这会很昂贵，并且可能容易让人输入错误的翻译.

现在我在想一些更便宜或更好的东西，我想我会向 StackOverflow 询问想法，以防已经有一些可用的标准，或者以前有人试图找到其中一个。例如，有谁知道谷歌翻译如何评价他们系统的各种迭代？

【问题讨论】：

【解决方案1】：

这里有一些可能有用的信息，因为它提供了对 BLEU 评分技术的基本解释，该技术经常被开发人员用来衡量 MT 系统的质量。

第一个链接提供了 BLEU 的基本概述，第二个链接指出了 BLEU 在其局限性方面的一些问题。

和

在此链接上还有一些关于如何开发有用的测试集的非常具体的实用建议：AsiaOnline.Net 网站在 11 月时事通讯中。由于限制为两个，我无法放入此链接。

【讨论】：

【解决方案2】：

我建议完善您的问题。机器翻译有很多指标，这取决于您要做什么。在您的情况下，我认为问题可以简单地表述为：“给定语言 L1 的一组查询，在网络搜索上下文中，我如何衡量 L2 的翻译质量？”

这基本上是跨语言信息检索。

在此要意识到的重要一点是，您实际上并不关心向用户提供查询的翻译：您希望为他们提供从良好翻译中获得的结果查询。

为此，您可以简单地衡量结果列表在黄金翻译与系统结果之间的差异。您可以使用许多等级相关性、集合重叠等指标。关键是您不需要判断每一个翻译，而只需评估自动翻译是否给您提供与人工翻译相同的结果。

对于提出糟糕翻译的人，您可以评估假定的黄金标准候选者是否具有相似的结果列表（即，给定 3 个人工翻译，他们的结果是否一致？如果不是，则使用最重叠的 2 个）。如果是这样，那么从 IR 的角度来看，这些实际上是同义词。

【讨论】：

【解决方案3】：

在我们的MT Evaluation 中，我们使用 hLEPOR 分数（详见幻灯片）

【讨论】：