Scrapy 结构图解析

Scrapy1.4.0科普文章
下面是Scrapy 结构图
上图的数字代表数据的流向，解释如下
1 引擎从Spider 获取初始Request对象
2 引擎将获取的Request对象交给调度器Scheduler,并向Spider要下一个Request对象
3 调度器将下一个Request对象交给引擎
4 引擎将Request对象交给下载器Downloader, 途径下载器中间件
5 网页下载完成，下载器Downloader生成一个Response对象，并经过下载中间件交给引擎
6 引擎收到Response对象，并交给Spider处理，途径 Spider Middleware
7 Spider 处理Response 对象，并将提取的结构化数据构成Item，同时生成新的Request对象，一并交给引擎，途径 Spider Middleware
8 引擎将Item 交给ItemPipeline 处理，将Request对象交给调度器Scheduler, 并继续想Spider要Request对象，直到没有Request对象可处理
从上面的结构图可看出， Scrapy 框架以Engine 为核心来运转，当调度器中没有Request需要爬取时，爬取任务结束