Python爬虫架构介绍
1. URL管理器管理着所有URL,把地址交给网页下载器去下载。
2. 下载的内容是一个String,由解析器 分析出有用的数据存储。
3. 解析器还可以解析出 String中的URL再交给URL管理器,进行下一步爬取。
1. URL管理器管理着所有URL,把地址交给网页下载器去下载。
2. 下载的内容是一个String,由解析器 分析出有用的数据存储。
3. 解析器还可以解析出 String中的URL再交给URL管理器,进行下一步爬取。
相关文章: