通过机器翻译系统生成英语查询答案

【问题标题】：English query generation through machine translation systems通过机器翻译系统生成英语查询
【发布时间】：2012-06-22 18:17:00
【问题描述】：

我正在做一个从句子中生成问题的项目。现在，我可以提出以下问题： “安吉拉·默克尔是德国总理。” -> “安吉拉·默克尔是谁？”

现在，当然，我希望问题看起来像“谁是……？”反而。有没有我还没有想到的简单方法？

我目前的想法是训练一个英语（不是问题）-> 英语（问题）翻译，可能使用现有的机器翻译引擎，如 moses。这是矫枉过正吗？我需要多少数据？有没有解决这个或类似问题的语料库？使用通用翻译引擎是否适合这项任务？

【问题讨论】：

标签： machine-learning nlp translation

【解决方案1】：

查看 Michael Heilman 的论文 Automatic Factual Question Generation from Text 了解有关问题生成的背景，并了解他解决此问题的方法。您可以通过搜索“问题生成”的研究来找到更多信息。他提到了微软的一个语料库：Microsoft Research Question-Answering Corpus。

我认为仅基于（当前）统计机器翻译方法的方法不会工作得那么好，因为您通常需要对源句子进行更深入的句法分析才能做好产生一个适当的问题。对于像您的示例这样的简单问题，设计句法树转换来生成问题非常容易，但是一旦句子变得更复杂一点，它就会变得更加棘手。

【讨论】：

【解决方案2】：

在我的脑海中，如果您将自己限制在相对简单的问题上，您可以进行解析，然后翻转元素以获取问题。你如何决定疑问词呢？ Who, What, Where, Why... 为此，您需要一个查看句子元素的分类器。安吉拉·默克尔（Angela Merkel）应该很容易归类为人/名，所以她得到了“谁”，柏林应该在地理词典中，所以得到了“哪里”。

我不确定具体的软件，但我可能会使用 NLTK，使用依赖项解析，然后使用您喜欢的任何分类方案。

最终你的成功取决于你的输入和输出空间有多大。我会先解决最简单的问题。

【讨论】：

现在，我只使用命名实体识别。为这些命名实体确定一个疑问词非常简单。
听起来不错。您是否尝试过使用翻译来创建问题？类似的可能性可能是训练对问题表单进行依赖解析所需的实际步骤。
不，我没有，因为我需要一个合适的训练集，而我没有。您是否知道有关如何进行/训练此类转换的参考资料？到目前为止，我只遇到过二进制和多类分类，你的想法听起来有点复杂。即使我有一个可以学习这种转换的算法——我从哪里获得训练数据？
就我的想法而言，您肯定需要构建自己的训练集。我没有关于此类转换的参考资料，但可能有一些关于此类事情的语言学文献。嗯嗯我会考虑一下的。