如何根据上下文从文本中提取单词答案

【问题标题】：How to extract words from text as per the context如何根据上下文从文本中提取单词
【发布时间】：2011-05-01 05:46:21
【问题描述】：

我想从用户提供的文本语句中提取相关词。例如。对于“矩形有几条边？”这个问题。这些词应该是“矩形”、“边”、“许多”、“如何”。

我们发现我的目标是建立一个 NLP 问答系统。但现在我只想从问题中提取所需的关键字，问题的范围不是很大。

我遇到过各种数据挖掘工具，但不太确定它们是否真的有用。它们似乎有点太高级或不完全相关。

如果有任何适合要求的工具，请告诉我，或者我应该继续尝试自己编码。

请提供您认为可能有帮助的任何指示。

【问题讨论】：

标签： nlp text-mining extraction linguistics

【解决方案1】：

除了 srean 建议使用 POS 标记和 NER 之外，许多人使用搜索引擎工具（特别是 Lucene，但还有其他几个）来进行问答。他们索引一组应该包含答案的文档，将问题用作查询，检索一组文档并过滤这些文档以找到答案。搜索引擎工具具有内置的词权重。

这是基线设置；对于更高级的系统，他们会对问题和文档进行各种预处理，包括停用词过滤、词性标注、解析、NER、遗传算法等。

有关此设置的示例，请参阅 this paper。

【讨论】：

【解决方案2】：

如果您只有问题，您可以尝试词性标注 (POS) 和命名实体提取 (NER)。特别是名词会很有趣。有许多相同的开源工具，Brill 的 POS tager、Lingpipe、Open NLP 等。但是，如果您也有来自您感兴趣的领域的语料库，您可以从中提取关键词和短语：使用单词和短语的频率与其他一些基本语料库相比有多么不同。给定一个问题，您可以查找这些关键词和短语。

【讨论】：

LingPipe 不是开源的。他们提供源代码，但它仍然是专有的。不过，很好的方法。