爬虫的配置、启动和终止


Spider

Spider是爬虫启动的入口。在启动爬虫之前,我们需要使用一个PageProcessor创建一个Spider对象,然后使用run()进行启动。

同时Spider的其他组件(Downloader、Scheduler、Pipeline)都可以通过set方法来进行设置。

爬虫的配置、启动和终止

爬虫的配置、启动和终止



​​​​​​​爬虫配置Site

Site.me()可以对爬虫进行一些配置配置,包括编码、抓取间隔、超时时间、重试次数等。在这里我们先简单设置一下:重试次数为3次,抓取间隔为一秒。

爬虫的配置、启动和终止

站点本身的一些配置信息,例如编码、HTTP头、超时时间、重试策略等、代理等,都可以通过设置Site对象来进行配置。

爬虫的配置、启动和终止​​​​​​​

相关文章:

  • 2022-12-23
  • 2021-04-27
  • 2021-11-16
  • 2022-02-27
  • 2022-12-23
  • 2021-09-23
  • 2022-02-20
猜你喜欢
  • 2022-01-12
  • 2022-12-23
  • 2021-09-19
  • 2021-10-06
  • 2021-05-30
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案