【发布时间】:2016-07-29 15:28:40
【问题描述】:
以下项目中使用的常用爬取索引文件
https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy
mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792')
我希望在我的项目中使用完整的索引文件(APRIL-2015 抓取数据),该项目使用上述项目作为基础。
在哪里可以下载整个索引文件?
Here Tom Morris 声明
索引服务使用的索引文件也可用 供下载。
【问题讨论】:
标签: python boto common-crawl