分布式爬虫
状态管理器可以部署在A,B,C任何一台上,也可以部署在另外的服务器上。URL的分配和
去重都是通过我们的状态管理器来进行管理的
分布式爬虫的优点:
1.充分利用多机器的宽带加速爬取
2.充分利用多机的爬取速度
我们在使用SCHEDULER时是一种单机状态,scrapy在
通信时使用的是queue,这个是存在某台机器的内存上的,不
支持分布式。
现在我们做分布式的,那么我们就要用到redis,因为redis存在内存上的数据是可以外部访问的。也可以使用scrapy_mysql,但是我们的Mysql是存储在硬盘上然后再缓存的太慢了,所以我们使用redis