下载通用爬取完整索引文件

【问题标题】：Download Common crawl complete index file下载通用爬取完整索引文件
【发布时间】：2016-07-29 15:28:40
【问题描述】：

以下项目中使用的常用爬取索引文件

mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792')

我希望在我的项目中使用完整的索引文件（APRIL-2015 抓取数据），该项目使用上述项目作为基础。

在哪里可以下载整个索引文件？

Here Tom Morris 声明

索引服务使用的索引文件也可用供下载。

【问题讨论】：

【解决方案1】：

常见的爬网索引文件在s3://commoncrawl/cc-index/collections/公开提供

您可以通过 aws 命令行查看所有可用的爬网索引：aws s3 ls s3://commoncrawl/cc-index/collections/

2015 年 4 月的索引文件位于 s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/

如果你想通过http协议下载索引*.gz文件，你可以这样做：

https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz

cdx 文件大多是从 cdx-00000.gz 到 cdx-00299.gz，因此完整的索引包含在 300 个文件中。

【讨论】：