爬虫的工作流程(重点)
总结: 搜索引擎流程 与 聚焦爬虫流程的区别:
搜索引擎流程:
爬取范围: 整个网络, 见到URL就爬
保存的数据: 保存的是原始的HTML
预处理: 主要是 分词, 排名
聚焦爬虫流程
爬取范围: 特定的URL, 只有有需要的数据的URL,才爬取
保存的数据: 保存的是需要的数据.
爬虫的工作流程(重点)
总结: 搜索引擎流程 与 聚焦爬虫流程的区别:
搜索引擎流程:
爬取范围: 整个网络, 见到URL就爬
保存的数据: 保存的是原始的HTML
预处理: 主要是 分词, 排名
聚焦爬虫流程
爬取范围: 特定的URL, 只有有需要的数据的URL,才爬取
保存的数据: 保存的是需要的数据.
相关文章: