Scrapy爬虫框架——介绍

一、Scrapy爬虫框架介绍

Scrapy不是一个函数功能库，而是一个爬虫框架。
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫

二、Scrapy框架结构（5+2结构）

Scrapy爬虫框架——介绍

三、框架的数据流路径（三条）

第一条路径：
Scrapy爬虫框架——介绍
1.Engine从Spider处获得爬取请求(Request) (框架入口)
2.Engine将爬取请求转发给Scheduler，用于调度

第二条路径：
Scrapy爬虫框架——介绍

Engine从Scheduler处获得下一个要爬取的请求
Engine将爬取请求通过中间件发送给Downloader
爬取网页后，Downloader形成响应（Response）通过中间件发给Engine
Engine将收到的响应通过中间件发送给Spider处理

第三条路径：
Scrapy爬虫框架——介绍

Spider处理响应后产生爬取项（scraped Item）和新的爬取请求（Requests）给Engine
Engine将爬取项发送给Item Pipeline（框架出口）
Engine将爬取请求发送给Scheduler

四、需要用户编写的三个结构

1.Spider
Scrapy爬虫框架——介绍
2.Item Pipelines

3.Downloader 和Middleware （可配置，也可不配置）

五、Requests库和Scarpy库爬虫的比较

Scrapy爬虫框架——介绍

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode