【发布时间】:2016-02-09 18:57:41
【问题描述】:
我正在编写一个scrapy spider,它将许多网址作为输入并将它们分类(作为项目返回)。这些 URL 是通过我的爬虫的 start_requests() 方法提供给蜘蛛的。
有些网址不用下载就可以分类,所以我想在start_requests()中直接给他们yield一个Item,这是scrapy禁止的。我该如何规避呢?
我曾考虑在自定义中间件中捕获这些请求,将它们变成虚假的 Response 对象,然后我可以在请求回调中将其转换为 Item 对象,但欢迎使用任何更简洁的解决方案。
【问题讨论】: