【问题标题】:How can I get WT2g and WT10g for free?如何免费获得 WT2g 和 WT10g?
【发布时间】:2012-08-28 09:44:27
【问题描述】:

因为我想测试一些inverted index 压缩算法,所以我需要一些标准数据集,就像我上面提到的那样。

这些数据集可以免费下载吗?

据我所知,这些数据集由格拉斯哥大学分发,与大多数其他 TREC 测试数据集一样,不是免费的。

【问题讨论】:

    标签: dataset compression search-engine inverted-index


    【解决方案1】:

    看看this

    向下滚动至Peer-to-Peer Testbed Definitions。但我不确定!

    【讨论】:

    • 我把我的评论作为答案,因为它很长。请阅读并说出您对编写爬虫的想法。你对 twitter 数据集有什么想法?你有关于它的任何信息吗?谢谢
    【解决方案2】:

    注意:这是对 Majid 回答的评论。我把它作为答案, 因为它很长。

    从这些数据集的名称可以看出,WT2g 的大小为 2 GB,WT10g 的大小为 10 GB。但是您[Majid] 向我介绍的数据集非常小。起初,我认为这个数据集是主数据集的一个子集。但是在我下载它并看到它的包含后,我发现它只包含从它们中抓取WT10g 的站点的 URL。此外,对于每个 URL,它都包含从中爬取的页面数。 (我指的是从每个 URL 抓取的页面数,而不是页面本身)
    完全似乎我无法免费找到这些数据集,但我认为可以编写一个简单的爬虫并使用您 [Majid] 引入的数据集中存在的 URL 作为爬虫种子。我认为将使用此方法创建的集合将类似于主要集合。

    【讨论】:

    • 请问您是否从 URL 中获取了文档。你想分享文件吗???
    • @bob90937 由于某些原因,我没有重构WT10g,而是使用AP89 进行评估。尽管如此,在过去的几周里,我已经用 14 种不同的语言抓取了大约 115,000 个网页的集合。如果你愿意,我可以与你分享这个语料库。
    • 我可以知道语料库标有相关、不相关或排名、分数吗?因为我想要一个包含文档、查询、相关性、...来评估搜索引擎的数据集
    • 你有没有研究论文,你用它来比较你的评估结果和研究论文的结果来检查系统是怎样的?
    • @bob90937 抱歉,我的语料库没有您需要的元数据。
    猜你喜欢
    • 1970-01-01
    • 2010-11-30
    • 2016-11-28
    • 1970-01-01
    • 2010-10-22
    • 1970-01-01
    • 1970-01-01
    • 2022-11-12
    • 1970-01-01
    相关资源
    最近更新 更多