【发布时间】:2017-06-20 05:17:17
【问题描述】:
使用 Scrapy 将 HTML 下载到我的硬盘后(例如,使用带有字段 HTML 的内置项目导出器,或将所有 HTML 文件存储到一个文件夹),我如何使用 Scrapy 再次从我的硬盘读取数据并在管道中执行下一步?有没有类似 Item Importer 的东西?
【问题讨论】:
-
不是关于“项目导入器”的真正anwser,但
HTTPCACHE_ENABLED=True(默认情况下)激活基于文件系统的 HTTP 响应缓存,因此您可以毫不费力地重播抓取。跨度> -
我不喜欢 httpcache 的地方在于它存储了数千个文件,而且它们不是人类可读的。我更喜欢一个单一的、人类可读的文件。
标签: python web-scraping scrapy reproducible-research