很长时间没有更新博客了,前一阵时间在做项目,里面有一个爬虫系统,然后就从里面整理了一点代码做成了一个简易的爬虫系统,还挺实用的。

 

简单说来,这个爬虫系统的功能就是:给定初始的链接池,然后设定一些参数,它就会自动开始抓取。

抓取采用的是宽度优先搜索,可以设定最大抓取深度、最多抓取的网页个数、站内抓取还是全网抓取。

 

github地址:https://github.com/1049451037/my_simple_crawler/

相关文章:

  • 2022-02-07
  • 2021-06-04
  • 2021-06-13
  • 2022-12-23
  • 2021-12-04
  • 2021-10-28
  • 2023-04-08
  • 2022-12-23
猜你喜欢
  • 2022-02-07
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-03-06
  • 2021-07-09
相关资源
相似解决方案