基于Scrapy分布式爬虫的开发与设计

这个项目也是初窥python爬虫的一个项目，也是我的毕业设计，当时选题的时候，发现大多数人选择的都是网站类，实在是普通不过了，都是一些简单的增删查改，业务类的给人感觉一种很普通的系统设计，当时也刚好在知乎上看到了一个回答，你是如何利用计算机技术解决生活的实际问题，链接就不放了，有兴趣的可以搜索下，然后就使用了这个课题。

摘要:基于 python 分布式房源数据抓取系统为数据的进一步应用即房源推荐系统做数据支持。本课题致力于解决单进程单机爬虫的瓶颈，打造一个基于 Redis 分布式多爬虫共享队列的主题爬虫。本系统采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，使用MongoDb 数据库做数据存储，利用 Django web 框架和 Semantic UI开源框架对数据进行友好可视化，最后使用了Docker对爬虫程序进行部署。设计并实现了针对 58 同城各大城市租房平台的分布式爬虫系统。

一、系统功能架构

基于Scrapy分布式爬虫的开发与设计

系统功能架构图

分布式爬虫抓取系统主要包含以下功能：

1．爬虫功能：

爬取策略的设计

内容数据字段的设计

增量爬取

请求去重

2．中间件：

爬虫防屏蔽中间件

网页非200状态处理

爬虫下载异常处理

3．数据存储：

抓取字段设计

数据存储

4．数据可视化

二、系统分布式架构

分布式采用主从结构设置一个Master服务器和多个Slave服务器，Master端管理Redis数据库和分发下载任务，Slave部署Scrapy爬虫提取网页和解析提取数据，最后将解析的数据存储在同一个MongoDb数据库中。分布式爬虫架构如图所示。

基于Scrapy分布式爬虫的开发与设计

分布式爬虫架构图

应用Redis数据库实现分布式抓取，基本思想是Scrapy爬虫获取的到的detail_request的urls都放到Redis Queue中，所有爬虫也都从指定的Redis Queue中获取requests，Scrapy-Redis组件中默认使用SpiderPriorityQueue来确定url的先后次序，这是由sorted set实现的一种非FIFO、LIFO方式。因此，待爬队列的共享是爬虫可以部署在其他服务器上完成同一个爬取任务的一个关键点。此外，在本文中，为了解决Scrapy单机局限的问题，Scrapy将结合Scrapy-Redis组件进行开发，Scrapy-Redis总体思路就是这个工程通过重写Scrapu框架中的scheduler和spider类，实现了调度、spider启动和redis的交互。实现新的dupefilter和queue类，达到了判重和调度容器和redis的交互，因为每个主机上的爬虫进程都访问同一个redis数据库，所以调度和判重都统一进行统一管理，达到了分布式爬虫的目的。