爬虫原理

  一、网络连接

      什么是网络连接呢?其实就是你去买水的时候,你只是需要水,投入硬币,自助机就会给你弹出你需要的书。计算机带着请求头和消息头向服务器发起一次请求,相应的服务器会返回计算机相应的html文件作为Response.这里的请求其实是一次get请求.计算机Request请求和服务器的Respouse回应。即实现网络连接。网络爬虫六

二、爬虫原理

     爬虫是需要做两件事,一是模拟计算机对服务器发起Request请求。二就是接受服务器端的Reponse内容并解析、提取所需的信息。但互联网网页错综复杂,一次的请求和回应不能够批量获取网页的数据,这时候就需要设计爬虫的流程。

三、多页面爬虫流程

  1.     手动翻页并观察个网页的URL特点,构造出所有页面的URL存入列表中。
  2. 根据URL列表一次循环去除URL.
  3. 定义爬虫函数。
  4. 循环调用爬虫函数,存储数据。
  5. 循环完毕,结束爬虫。

四、跨页面爬虫流程

  1. 定义爬取函数爬取列表页的所有专题的URL
  2. 将专题URL存入列表中
  3. 定义爬取详细页数据函数
  4. 进入专题详细页面爬取详细页数据
  5. 存储数据,循环完毕,爬虫结束

相关文章:

猜你喜欢
  • 2021-12-20
  • 2021-11-29
相关资源
相似解决方案