【发布时间】:2019-09-11 12:12:04
【问题描述】:
我在 scrapy 中创建了一个脚本来解析 start_urls 中列出的不同站点的标题。该脚本完美地完成了它的工作。
我现在想做的是让我的脚本在解析两个 url 后停止,不管有多少个 url。
到目前为止,我已经尝试过:
import scrapy
from scrapy.crawler import CrawlerProcess
class TitleSpider(scrapy.Spider):
name = "title_bot"
start_urls = ["https://www.google.com/","https://www.yahoo.com/","https://www.bing.com/"]
def parse(self, response):
yield {'title':response.css('title::text').get()}
if __name__ == "__main__":
c = CrawlerProcess({
'USER_AGENT': 'Mozilla/5.0',
})
c.crawl(TitleSpider)
c.start()
当列出的两个 url 被抓取时,如何让我的脚本停止?
【问题讨论】:
-
哪两个?序列中的第一个?
-
任何两个都可以@DirtyBit。
-
我不熟悉scrapy。你如何阻止蜘蛛?
标签: python python-3.x web-scraping scrapy