【问题标题】:How to extract words from text as per the context如何根据上下文从文本中提取单词
【发布时间】:2011-05-01 05:46:21
【问题描述】:

我想从用户提供的文本语句中提取相关词。 例如。对于“矩形有几条边?”这个问题。 这些词应该是“矩形”、“边”、“许多”、“如何”。

我们发现我的目标是建立一个 NLP 问答系统。 但现在我只想从问题中提取所需的关键字, 问题的范围不是很大。

我遇到过各种数据挖掘工具,但不太确定它们是否真的有用。它们似乎有点太高级或不完全相关。

如果有任何适合要求的工具,请告诉我,或者我应该继续尝试自己编码。

请提供您认为可能有帮助的任何指示。

【问题讨论】:

    标签: nlp text-mining extraction linguistics


    【解决方案1】:

    除了 srean 建议使用 POS 标记和 NER 之外,许多人使用搜索引擎工具(特别是 Lucene,但还有其他几个)来进行问答。他们索引一组应该包含答案的文档,将问题用作查询,检索一组文档并过滤这些文档以找到答案。搜索引擎工具具有内置的词权重。

    这是基线设置;对于更高级的系统,他们会对问题和文档进行各种预处理,包括停用词过滤、词性标注、解析、NER、遗传算法等。

    有关此设置的示例,请参阅 this paper

    【讨论】:

      【解决方案2】:

      如果您只有问题,您可以尝试词性标注 (POS) 和命名实体提取 (NER)。特别是名词会很有趣。有许多相同的开源工具,Brill 的 POS tager、Lingpipe、Open NLP 等。但是,如果您也有来自您感兴趣的领域的语料库,您可以从中提取关键词和短语:使用单词和短语的频率与其他一些基本语料库相比有多么不同。给定一个问题,您可以查找这些关键词和短语。

      【讨论】:

      • LingPipe 不是开源的。他们提供源代码,但它仍然是专有的。不过,很好的方法。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-11
      相关资源
      最近更新 更多