【问题标题】:Download Common crawl complete index file下载通用爬取完整索引文件
【发布时间】:2016-07-29 15:28:40
【问题描述】:

以下项目中使用的常用爬取索引文件

https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy

mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792')

partial one.

我希望在我的项目中使用完整的索引文件(APRIL-2015 抓取数据),该项目使用上述项目作为基础。

在哪里可以下载整个索引文件?

Here Tom Morris 声明

索引服务使用的索引文件也可用 供下载。

【问题讨论】:

    标签: python boto common-crawl


    【解决方案1】:

    常见的爬网索引文件在s3://commoncrawl/cc-index/collections/公开提供

    您可以通过 aws 命令行查看所有可用的爬网索引:aws s3 ls s3://commoncrawl/cc-index/collections/

    2015 年 4 月的索引文件位于 s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/

    如果你想通过http协议下载索引*.gz文件,你可以这样做:

    https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz

    cdx 文件大多是从 cdx-00000.gzcdx-00299.gz,因此完整的索引包含在 300 个文件中。

    【讨论】:

      猜你喜欢
      • 2021-06-11
      • 1970-01-01
      • 2022-01-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多