分布式爬虫

状态管理器可以部署在A,B,C任何一台上,也可以部署在另外的服务器上。URL的分配和

去重都是通过我们的状态管理器来进行管理的

 

Scrapy_Redis第一讲

 

分布式爬虫的优点:

1.充分利用多机器的宽带加速爬取

2.充分利用多机的爬取速度

 

我们在使用SCHEDULER时是一种单机状态,scrapy在

通信时使用的是queue,这个是存在某台机器的内存上的,不

支持分布式。

 

现在我们做分布式的,那么我们就要用到redis,因为redis存在内存上的数据是可以外部访问的。也可以使用scrapy_mysql,但是我们的Mysql是存储在硬盘上然后再缓存的太慢了,所以我们使用redis

 

 

 

 

 

 

 

相关文章:

  • 2021-04-08
  • 2021-09-08
  • 2022-12-23
  • 2021-08-03
  • 2021-04-16
  • 2021-10-07
  • 2021-08-28
  • 2021-06-15
猜你喜欢
  • 2021-08-02
  • 2021-06-25
  • 2022-01-10
  • 2021-08-31
  • 2021-11-14
  • 2022-12-23
  • 2021-08-20
相关资源
相似解决方案