【发布时间】:2023-03-18 08:49:05
【问题描述】:
start_urls = ['https://image.jpg']
def start_requests(self):
for url in self.start_urls:
request = scrapy.Request(url,callback=self.parse)
yield request
def parse(self, response):
item = GetImgsItem()
# print(response.url)
item['image_urls'] = response.url
yield item
我的蜘蛛现在可以从 start_urls 下载图像,但请求被发送了两次以提供一张图像。 我应该如何在 start_requests 中将其转为下载?
问题 2: 我在我的项目中创建了两个蜘蛛(蜘蛛 A,蜘蛛 B)。在蜘蛛 A 中,我有一个特定的管道类来处理下载的项目。现在效果很好。
但是后来我使用spider B的时候,它也使用了spider A的同一个pipeline class,我应该如何设置pipeline class,让spider A独享?
【问题讨论】:
-
这能回答你的问题吗? Returning Items in scrapy's start_requests()
标签: python scrapy web-crawler