Scrapy 完整流程

根据上一篇博客，对Scrapy框架更加细化进行了处理

1.新增了对请求发送及接收的处理机制

2.梳理处理方式

更改了目录结构

items : 对象是种简单的容器，保存了爬取到得数据

middlewares : 下载器中间件是介于Scrapy的request/response处理的钩子框架。是用于全局修改Scrapy request和response的一个轻量、底层的系统。

pipelines : 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理

setting :

DOWNLOADER_MIDDLEWARES : 保存项目中启用的下载中间件及其顺序的字典

ITEM_PIPELINES : 保存项目中启用的pipeline及其顺序的字典

Scrapy 完整流程

middlewares : 针对于不同平台 middlewares 有不同的处理方式

Scrapy 完整流程

pipelines:

Scrapy 完整流程

item：定义数据实体格式

Scrapy 完整流程

demo_two：

Scrapy 完整流程

完整的爬虫流程结束

Scrapy 完整流程