【发布时间】:2011-02-03 01:41:14
【问题描述】:
我想为全文搜索做一些轻量级的测试和基准测试,所以数据集应该具有以下品质:
- 10,000 - 100,000 条记录。
- 英文单词分散度好。
- CSV 或 Excel 格式——即我不想通过 API 访问它。
带有标题和描述字段的书籍或电影之类的内容将是完美的。我浏览了 UCI Machine Learning Repo,但它太以数字为导向。
【问题讨论】:
我想为全文搜索做一些轻量级的测试和基准测试,所以数据集应该具有以下品质:
带有标题和描述字段的书籍或电影之类的内容将是完美的。我浏览了 UCI Machine Learning Repo,但它太以数字为导向。
【问题讨论】:
使用Gutenberg Project。您可以访问数以千计的纯文本英文书籍。这就是我用过一次并且很满意的东西。
【讨论】:
如果没有找到,可以使用 LOREM IPSUM 生成器创建一个
您还可以获得完整的 StackOverflow 数据转储
https://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/
【讨论】: