Scrapy_Redis第一讲

分布式爬虫

状态管理器可以部署在A，B，C任何一台上，也可以部署在另外的服务器上。URL的分配和

去重都是通过我们的状态管理器来进行管理的

Scrapy_Redis第一讲

分布式爬虫的优点：

1.充分利用多机器的宽带加速爬取

2.充分利用多机的爬取速度

我们在使用SCHEDULER时是一种单机状态，scrapy在

通信时使用的是queue，这个是存在某台机器的内存上的，不

支持分布式。

现在我们做分布式的，那么我们就要用到redis，因为redis存在内存上的数据是可以外部访问的。也可以使用scrapy_mysql，但是我们的Mysql是存储在硬盘上然后再缓存的太慢了，所以我们使用redis