分布式爬虫系统广泛应用于大型爬虫项目中,力求以最高的效率完成任务,这也是分布式爬虫系统的意义所在。

分布式爬虫系统的三种形式:

利用redis做分布式系统,最经典的就是scrapy-Redis,这是比较成熟的框架。同时我们也可以利用Redis的队列功能或者订阅发布功能来打造自己的分布式系统。

RabbitMQ是比较靠谱的消息中间件,得益于它的确认机制,当一条消息消费后如果设置确定模式,那么确认后才会继续消费,如果不确定认,那么这个任务将分配给其他消费者。

celery典型的分布式任务队列,常用于异步操作中,如tornado、Django的异步任务中,用celery设计分布式爬虫系统,往往结合网络框架,打造一个爬虫任务接口,提供给其他人使用。

分布式爬虫系统的优势:

分布式爬虫系统的架构(19)

 

 将多线程爬虫部署到多台机器上:

分布式爬虫系统的架构(19)

 

相关文章:

  • 2021-10-30
  • 2022-12-23
  • 2021-10-05
  • 2021-10-29
  • 2022-01-15
  • 2021-11-02
猜你喜欢
  • 2021-09-25
  • 2021-10-29
  • 2021-09-25
  • 2022-12-23
  • 2021-10-05
  • 2021-06-06
相关资源
相似解决方案