根据上一篇博客,对Scrapy框架更加细化进行了处理 

Scrapy 官方中文档 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/

1.新增了对请求发送及接收的处理机制

2.梳理处理方式

更改了目录结构

items :   对象是种简单的容器,保存了爬取到得数据

middlewares :  下载器中间件是介于Scrapy的request/response处理的钩子框架。 是用于全局修改Scrapy request和response的一个轻量、底层的系统。

pipelines : 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理

 

setting : 

DOWNLOADER_MIDDLEWARES : 保存项目中启用的下载中间件及其顺序的字典

ITEM_PIPELINES : 保存项目中启用的pipeline及其顺序的字典

Scrapy 完整流程

middlewares :  针对于不同平台 middlewares 有不同的处理方式

Scrapy 完整流程

 

pipelines:   

  • 清理HTML数据
  • 验证爬取的数据(检查item包含某些字段)
  • 查重(并丢弃)
  • 将爬取结果保存到数据库中

Scrapy 完整流程

item:定义数据实体格式

Scrapy 完整流程

demo_two:

Scrapy 完整流程

完整的爬虫流程结束

 

 

 

 

Scrapy 完整流程

 

 

 

 

 

 

 

 

相关文章:

  • 2021-08-16
  • 2021-10-27
  • 2018-12-10
  • 2021-11-05
  • 2021-12-04
  • 2021-12-04
  • 2021-11-27
猜你喜欢
  • 2021-06-22
  • 2021-10-26
  • 2021-09-21
  • 2021-07-31
  • 2021-12-19
  • 2021-12-03
  • 2021-12-10
  • 2021-08-16
相关资源
相似解决方案