爬虫(初级) - 爱码网

crawler基本原理：Request(请求)：每一个展示在用户面前的网页都必须经过这一步，也就是向服务其发送请求；

Response(响应)：服务器在接收到用户的请求后，会验证请求的有效性，然后向用户(客户端)发送响应的内容，客户端接收服务器响应的内容，将内容展示出来，就是我们所熟悉的网页请求。

网页请求的方式：GET、POST

POST请求数据必构建请求头才可以！！！

第一步：打开一个网页，比如中国旅游网首页(http://www.cntour.cn/)，按快捷键(Ctrl+U)打开源码页面，如下图所示：

爬虫(初级)

第二步：使用GET方式抓取数据

爬虫(初级)

第二步(other)：使用POST方式抓取数据

爬虫(初级)

第三步:(继第二步(other)后)：构建请求头：

爬虫(初级)

注意：这个网站有反爬机制，如果出现了'errorCode：50'，说明触发了反爬机制。此处可以把url网址里面的_o删掉！！！