【问题标题】:Extracting Part of Speech (Source and Destinations) using text mining/NLP?使用文本挖掘/NLP 提取部分语音(源和目标)?
【发布时间】:2017-11-15 02:15:39
【问题描述】:

我需要使用文本挖掘/NLP/信息检索从文本文档中提取源词和目标词?

前:

1. i am travelling from New York to London.
2. i am heading towards playground from home.
3. i will be going to Sweden from Boston.
4. i was flying from School to Home.

输出可以如下:

S. No. |  source    | Destination
------ |  ----------|------------
      1| New York   | London
      2| playground | home
      3| Sweden     | Boston
      4| School     | Home

【问题讨论】:

标签: nlp nltk stanford-nlp text-mining information-retrieval


【解决方案1】:

听起来你需要两件事:

  1. 对数据进行依赖分析,以识别由“to”和“from”支配的名词(如果您真的只关心这两个介词的话)
  2. 一个(非)命名实体识别器,用于验证所引用的位置。

对于第 1 部分,有很多依赖解析器。你用斯坦福 NLP 和 NLTK 标记了这个问题,所以听起来你正在使用 Java 或 Python。斯坦福解析器可以提供依赖解析,所以这是一个不错的选择,但有很多选项可用。

对于第 2 部分,如果您只需要命名目的地(纽约),CoreNLP 的 NER 效果很好。您还可以考虑使用 Spacy (https://spacy.io/),它在 Python 中提供了开箱即用的依赖项解析和 NER。

如果您还需要匹配“游乐场”之类的内容,则需要一个非命名实体识别组件。这类的数量较少,但您可以尝试使用 xrenner (https://corpling.uis.georgetown.edu/xrenner/),它也可以作为 Python 包从 PyPI 获得。它使用 Basic Stanford Dependencies 作为输入(不是 Universal Dependencies)进行依赖解析,因此您可以在步骤 1 中使用它们并将结果提供给 xrenner。

请记住,所有这些工具都是随机的,无论您做什么都会有一定的错误率。

希望这会有所帮助!

【讨论】:

猜你喜欢
  • 2015-07-17
  • 2018-09-21
  • 2018-01-14
  • 1970-01-01
  • 2019-06-04
  • 2013-04-10
  • 2013-06-19
  • 2018-04-04
  • 1970-01-01
相关资源
最近更新 更多