使用文本挖掘/NLP 提取部分语音（源和目标）？答案

【问题标题】：Extracting Part of Speech (Source and Destinations) using text mining/NLP?使用文本挖掘/NLP 提取部分语音（源和目标）？
【发布时间】：2017-11-15 02:15:39
【问题描述】：

我需要使用文本挖掘/NLP/信息检索从文本文档中提取源词和目标词？

前：

1. i am travelling from New York to London.
2. i am heading towards playground from home.
3. i will be going to Sweden from Boston.
4. i was flying from School to Home.

输出可以如下：

S. No. |  source    | Destination
------ |  ----------|------------
      1| New York   | London
      2| playground | home
      3| Sweden     | Boston
      4| School     | Home

【问题讨论】：

这看起来像是natural language understanding 问题。 NLTK 可以生成discourse representation structures 生成文本的含义。
@AndersonGreen 谢谢这真的很有帮助。

标签： nlp nltk stanford-nlp text-mining information-retrieval

【解决方案1】：

听起来你需要两件事：

对数据进行依赖分析，以识别由“to”和“from”支配的名词（如果您真的只关心这两个介词的话）
一个（非）命名实体识别器，用于验证所引用的位置。

对于第 1 部分，有很多依赖解析器。你用斯坦福 NLP 和 NLTK 标记了这个问题，所以听起来你正在使用 Java 或 Python。斯坦福解析器可以提供依赖解析，所以这是一个不错的选择，但有很多选项可用。

对于第 2 部分，如果您只需要命名目的地（纽约），CoreNLP 的 NER 效果很好。您还可以考虑使用 Spacy (https://spacy.io/)，它在 Python 中提供了开箱即用的依赖项解析和 NER。

如果您还需要匹配“游乐场”之类的内容，则需要一个非命名实体识别组件。这类的数量较少，但您可以尝试使用 xrenner (https://corpling.uis.georgetown.edu/xrenner/)，它也可以作为 Python 包从 PyPI 获得。它使用 Basic Stanford Dependencies 作为输入（不是 Universal Dependencies）进行依赖解析，因此您可以在步骤 1 中使用它们并将结果提供给 xrenner。

请记住，所有这些工具都是随机的，无论您做什么都会有一定的错误率。

希望这会有所帮助！

【讨论】：

因为这个问题是关于 NLTK 的，所以从输入文本中简单地 generate discourse representation structures 可能会更容易。