【发布时间】:2016-01-25 05:32:31
【问题描述】:
我有一个进程(在 Scrapy 外部),它生成一个指向 pdf 文档的 URL 列表,以及一个我想要保存每个 pdf 的文件路径列表。
The following 解释了如何将 URL 列表作为命令行参数传递给 Scrapy,但是,有没有办法传递文件路径并确保每个 pdf 都保存在提供的文件路径中?
我怀疑我需要根据文档中提供的the tutorial 修改以下内容,但据我了解,parse 方法用于确定如何处理一个响应,而不是处理列表。
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
有什么建议吗?
【问题讨论】:
-
您是否将第一个 PDF 保存到第一个文件路径等等,或者您是否有其他方案将 RDF 链接到路径?也许您可以提供一些伪代码向我们展示您想要的逻辑。
标签: scrapy