【发布时间】:2012-08-28 09:44:27
【问题描述】:
因为我想测试一些inverted index 压缩算法,所以我需要一些标准数据集,就像我上面提到的那样。
这些数据集可以免费下载吗?
据我所知,这些数据集由格拉斯哥大学分发,与大多数其他 TREC 测试数据集一样,不是免费的。
【问题讨论】:
标签: dataset compression search-engine inverted-index
因为我想测试一些inverted index 压缩算法,所以我需要一些标准数据集,就像我上面提到的那样。
这些数据集可以免费下载吗?
据我所知,这些数据集由格拉斯哥大学分发,与大多数其他 TREC 测试数据集一样,不是免费的。
【问题讨论】:
标签: dataset compression search-engine inverted-index
看看this。
向下滚动至Peer-to-Peer Testbed Definitions。但我不确定!
【讨论】:
注意:这是对 Majid 回答的评论。我把它作为答案, 因为它很长。
从这些数据集的名称可以看出,WT2g 的大小为 2 GB,WT10g 的大小为 10 GB。但是您[Majid] 向我介绍的数据集非常小。起初,我认为这个数据集是主数据集的一个子集。但是在我下载它并看到它的包含后,我发现它只包含从它们中抓取WT10g 的站点的 URL。此外,对于每个 URL,它都包含从中爬取的页面数。 (我指的是从每个 URL 抓取的页面数,而不是页面本身)
完全似乎我无法免费找到这些数据集,但我认为可以编写一个简单的爬虫并使用您 [Majid] 引入的数据集中存在的 URL 作为爬虫种子。我认为将使用此方法创建的集合将类似于主要集合。
【讨论】:
WT10g,而是使用AP89 进行评估。尽管如此,在过去的几周里,我已经用 14 种不同的语言抓取了大约 115,000 个网页的集合。如果你愿意,我可以与你分享这个语料库。