我在哪里可以找到网络上的原始文本转储？答案

【问题标题】：Where can I find get a dump of raw text on the web?我在哪里可以找到网络上的原始文本转储？
【发布时间】：2010-08-02 13:44:41
【问题描述】：

我希望在我正在编写的程序中进行一些文本分析。我正在寻找类似于 Wikipedia 转储 (download.wikimedia.com) 中提供的原始形式的替代文本来源。

我宁愿不必经历爬网站、尝试解析 html、提取文本等的麻烦。

【问题讨论】：

【解决方案1】：

你要找什么样的文字？

Project Gutenberg 上有许多 .txt 格式的免费电子书（小说和非小说）。

他们还有large DVD images 的书籍可供下载。

【讨论】：

【解决方案2】：

NLTK 提供了一个简单的 Python API 来访问many text corpora，包括 Gutenberg、Reuters、Shakespeare 等。

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

【讨论】：

【解决方案3】：

gutenberg project 拥有大量各种格式（包括纯文本）的电子书

【讨论】：