有关以下自然语言处理术语的详细信息？答案

【问题标题】：details on the following Natural Language Processing terms?有关以下自然语言处理术语的详细信息？
【发布时间】：2011-02-10 09:44:06
【问题描述】：

Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)

是否有库可以用来执行 NLP 的上述任何功能？

真的不想向 AlchemyAPI 支付现金

【问题讨论】：

如果您描述了您想使用 Alchemy API 完成什么，也许会有所帮助。

标签： nlp libraries text-processing

【解决方案1】：

实际上有很多免费可用的开源自然语言处理包。这是一个简短的列表，按工具包的实现语言组织：

Python：Natural Language Toolkit NLTK
Java：OpenNLP、Gate 和 Stanford's JavaNLP
.NET：Sharp NLP

如果您不确定选择哪一个，我建议您从NLTK 开始。这个包相当容易使用，并且有很好的在线文档，包括a free book。

您应该能够使用 NLTK 轻松完成您列出的 NLP 任务，例如named entity recognition (NER)、extracting tags for documents 和 document categorization。

Alchemy 人所说的 structured data extraction 看起来只是 HTML 报废，只要页面仍然以相同的方式在视觉上呈现，它就可以抵抗对底层 HTML 的更改。所以，这不是一个真正的 NLP 任务。

要从 HTML 中提取文本，只需使用 boilerpipe。它快速、优质且免费。

【讨论】：

天哪，这就是我一直在寻找的答案！你先生真棒
如果手头的任务是boilerpipe，则无需完成关于训练数据的争论。

【解决方案2】：

Apache UIMA 项目最初是由 IBM 创建的，它提供了一个类似于 GATE 的 NLP 框架。有各种为 UIMA 构建的注释器。

【讨论】：