网络爬虫六 - 爱码网

爬虫原理

一、网络连接

什么是网络连接呢？其实就是你去买水的时候，你只是需要水，投入硬币，自助机就会给你弹出你需要的书。计算机带着请求头和消息头向服务器发起一次请求，相应的服务器会返回计算机相应的html文件作为Response.这里的请求其实是一次get请求.计算机Request请求和服务器的Respouse回应。即实现网络连接。网络爬虫六

二、爬虫原理

爬虫是需要做两件事，一是模拟计算机对服务器发起Request请求。二就是接受服务器端的Reponse内容并解析、提取所需的信息。但互联网网页错综复杂，一次的请求和回应不能够批量获取网页的数据，这时候就需要设计爬虫的流程。

三、多页面爬虫流程

手动翻页并观察个网页的URL特点，构造出所有页面的URL存入列表中。
根据URL列表一次循环去除URL.
定义爬虫函数。
循环调用爬虫函数，存储数据。
循环完毕，结束爬虫。

四、跨页面爬虫流程

定义爬取函数爬取列表页的所有专题的URL
将专题URL存入列表中
定义爬取详细页数据函数
进入专题详细页面爬取详细页数据
存储数据，循环完毕，爬虫结束