【问题标题】:details on the following Natural Language Processing terms?有关以下自然语言处理术语的详细信息?
【发布时间】:2011-02-10 09:44:06
【问题描述】:
Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)

是否有库可以用来执行 NLP 的上述任何功能?

真的不想向 AlchemyAPI 支付现金

【问题讨论】:

  • 如果您描述了您想使用 Alchemy API 完成什么,也许会有所帮助。

标签: nlp libraries text-processing


【解决方案1】:

实际上有很多免费可用的开源自然语言处理包。这是一个简短的列表,按工具包的实现语言组织:

如果您不确定选择哪一个,我建议您从NLTK 开始。这个包相当容易使用,并且有很好的在线文档,包括a free book

您应该能够使用 NLTK 轻松完成您列出的 NLP 任务,例如named entity recognition (NER)extracting tags for documentsdocument categorization

Alchemy 人所说的 structured data extraction 看起来只是 HTML 报废,只要页面仍然以相同的方式在视觉上呈现,它就可以抵抗对底层 HTML 的更改。所以,这不是一个真正的 NLP 任务。

要从 HTML 中提取文本,只需使用 boilerpipe。它快速、优质且免费。

【讨论】:

  • 天哪,这就是我一直在寻找的答案!你先生真棒
  • 如果手头的任务是boilerpipe,则无需完成关于训练数据的争论。
【解决方案2】:

Apache UIMA 项目最初是由 IBM 创建的,它提供了一个类似于 GATE 的 NLP 框架。有各种为 UIMA 构建的注释器。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-03
    • 2012-08-07
    • 1970-01-01
    • 2015-07-23
    • 2011-02-27
    • 2010-11-03
    相关资源
    最近更新 更多