【问题标题】:Where can I download a free, text-rich dataset?我在哪里可以下载免费的、富含文本的数据集?
【发布时间】:2011-02-03 01:41:14
【问题描述】:

我想为全文搜索做一些轻量级的测试和基准测试,所以数据集应该具有以下品质:

  • 10,000 - 100,000 条记录。
  • 英文单词分散度好。
  • CSV 或 Excel 格式——即我不想通过 API 访问它。

带有标题和描述字段的书籍或电影之类的内容将是完美的。我浏览了 UCI Machine Learning Repo,但它太以数字为导向。

【问题讨论】:

    标签: database dataset


    【解决方案1】:

    使用Gutenberg Project。您可以访问数以千计的纯文本英文书籍。这就是我用过一次并且很满意的东西。

    【讨论】:

      【解决方案2】:
      【解决方案3】:

      如果没有找到,可以使用 LOREM IPSUM 生成器创建一个

      T-SQL equivalent of =rand()

      您还可以获得完整的 StackOverflow 数据转储

      https://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2011-03-18
        • 2011-09-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-03-27
        • 2019-06-21
        • 2013-02-02
        相关资源
        最近更新 更多