【问题标题】:Where can I find get a dump of raw text on the web?我在哪里可以找到网络上的原始文本转储?
【发布时间】:2010-08-02 13:44:41
【问题描述】:

我希望在我正在编写的程序中进行一些文本分析。我正在寻找类似于 Wikipedia 转储 (download.wikimedia.com) 中提供的原始形式的替代文本来源。

我宁愿不必经历爬网站、尝试解析 html、提取文本等的麻烦。

【问题讨论】:

    标签: parsing text nlp wikipedia


    【解决方案1】:

    你要找什么样的文字?

    Project Gutenberg 上有许多 .txt 格式的免费电子书(小说和非小说)。

    他们还有large DVD images 的书籍可供下载。

    【讨论】:

      【解决方案2】:

      NLTK 提供了一个简单的 Python API 来访问many text corpora,包括 Gutenberg、Reuters、Shakespeare 等。

      >>> from nltk.corpus import brown
      >>> brown.words()
      ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
      

      【讨论】:

        【解决方案3】:

        gutenberg project 拥有大量各种格式(包括纯文本)的电子书

        【讨论】:

          猜你喜欢
          • 2021-01-03
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多