• Scrapy1.4.0科普文章
  • 下面是Scrapy 结构图
    Scrapy 结构图解析

  • 上图的数字代表数据的流向,解释如下

  • 1 引擎从Spider 获取初始Request对象
  • 2 引擎将获取的Request对象交给调度器Scheduler,并向Spider要下一个Request对象
  • 3 调度器将下一个Request对象交给引擎
  • 4 引擎将Request对象交给下载器Downloader, 途径下载器中间件
  • 5 网页下载完成,下载器Downloader生成一个Response对象, 并经过下载中间件交给引擎
  • 6 引擎收到Response对象, 并交给Spider处理, 途径 Spider Middleware
  • 7 Spider 处理Response 对象, 并将提取的结构化数据构成Item,同时生成新的Request对象,一并交给引擎, 途径 Spider Middleware
  • 8 引擎将Item 交给ItemPipeline 处理, 将Request对象交给调度器Scheduler, 并继续想Spider要Request对象,直到没有Request对象可处理

  • 从上面的结构图可看出, Scrapy 框架以Engine 为核心来运转,当调度器中没有Request需要爬取时,爬取任务结束

相关文章:

  • 2021-11-19
  • 2021-06-11
  • 2021-09-30
  • 2021-09-10
  • 2022-12-23
  • 2021-10-06
  • 2021-12-23
猜你喜欢
  • 2021-10-09
  • 2021-12-05
  • 2022-01-12
  • 2021-11-20
  • 2021-06-07
  • 2021-06-16
相关资源
相似解决方案