文章目录
Scrapy的工作流程
调度器Scheduler
- 队列,存放引擎(Scrapy Engine)发过来的requests请求
下载器Downloader
- 将requests"变成"response
爬虫Spider
- 自己编写的爬虫,爬取网络
引擎Scrapy Engine
- 负责数据的传输和信号在不同模块间的传递
中间件
下载中间件Downloader Middlewares
- 设置代理
爬虫中间件Spider Middlewares
- 对response进行过滤
数据队列Pipeline
- 保存数据