爬虫的工作流程(重点)

爬虫的工作流程
总结: 搜索引擎流程 与 聚焦爬虫流程的区别:
搜索引擎流程:

爬取范围: 整个网络, 见到URL就爬
保存的数据: 保存的是原始的HTML
预处理: 主要是 分词, 排名
聚焦爬虫流程

爬取范围: 特定的URL, 只有有需要的数据的URL,才爬取
保存的数据: 保存的是需要的数据.

相关文章:

  • 2021-04-25
  • 2021-11-06
  • 2022-12-23
  • 2021-06-27
  • 2021-06-22
  • 2021-09-10
猜你喜欢
  • 2021-11-28
  • 2022-12-23
  • 2021-04-08
  • 2021-12-03
  • 2021-12-07
  • 2021-09-30
  • 2021-06-14
相关资源
相似解决方案