c-x-a

1.爬虫有哪些模块?

答:

URL管理模块:维护已经爬取的URL集合和未爬取的URL集合,并提供获取新URL链接的接口

HTML下载模块:从URL管理器中获取未爬取的URL链接并下载HTML网页

HTML解析模块:从HTML下载器下载的网页内容解析出新的URL交给URL管理器,解析出有效数据给到数据存储器,常用lxml、xpath、re正则

数据存储模块:将HTML解析器解析出来的数据通过文件或数据库的形式存储起来

 爬虫调度模块:负责统筹调度其他四个模块的协调工作

#以下问题以后更新

2.python常用的数据结构

3.什么是元组拆包

4.元组为什么不可变

5.你遇到的反爬手段

6.算法了解多少,写个排序算法

7.写个二分查找法

8.切片的使用

分类:

技术点:

相关文章:

  • 2021-08-09
  • 2021-11-27
  • 2021-12-16
  • 2019-09-11
  • 2021-11-27
  • 2021-11-14
  • 2021-08-03
  • 2021-10-18
猜你喜欢
  • 2021-11-28
  • 2018-05-10
  • 2021-11-14
  • 2021-11-27
  • 2021-11-27
  • 2021-11-27
相关资源
相似解决方案