【发布时间】:2010-08-02 13:44:41
【问题描述】:
我希望在我正在编写的程序中进行一些文本分析。我正在寻找类似于 Wikipedia 转储 (download.wikimedia.com) 中提供的原始形式的替代文本来源。
我宁愿不必经历爬网站、尝试解析 html、提取文本等的麻烦。
【问题讨论】:
标签: parsing text nlp wikipedia
我希望在我正在编写的程序中进行一些文本分析。我正在寻找类似于 Wikipedia 转储 (download.wikimedia.com) 中提供的原始形式的替代文本来源。
我宁愿不必经历爬网站、尝试解析 html、提取文本等的麻烦。
【问题讨论】:
标签: parsing text nlp wikipedia
【讨论】:
NLTK 提供了一个简单的 Python API 来访问many text corpora,包括 Gutenberg、Reuters、Shakespeare 等。
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
【讨论】:
gutenberg project 拥有大量各种格式(包括纯文本)的电子书
【讨论】: