django高级之爬虫基础

一、爬虫原理

Python非常适合用来开发网页爬虫，理由如下：
1、抓取网页本身的接口
相比与其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

2、网页抓取后的处理
抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。

3、爬虫架构

django高级之爬虫基础

URL管理器：管理待爬取的url集合和已爬取的url集合，传送待爬取的url给网页下载器。
网页下载器（urllib、requests）：爬取url对应的网页，存储成字符串或文件，传送给网页解析器。
网页解析器（BeautifulSoup）：解析出有价值的数据，存储下来，同时补充url到URL管理器。

4、运行流程

django高级之爬虫基础

5、HTTP请求内容

GET:

http GET /index.html?p=1 http1.1\r\nhost:oldboyedu.com\r\n....\r\n\r\

默认请求头：Content-Type:text/html; charset=utf-8
无请求体

POST:

http POST / http1.1\r\nhost:oldboyedu.com\r\n....\r\n\r\nname=alex&age=18

默认请求头：content-type:application/url-from
请求体：\r\n\r\nname=alex&age=18

http POST / http1.1\r\nhost:oldboyedu.com\r\n....\r\n\r\n{"name": "alex", "age": 18}

默认请求头：content-type:application/json
请求体：\r\n\r\n{"name": "alex", "age": 18}

ps.响应：

- 响应：
   响应头
      - 浏览器读取
   响应体
      - 看到的内容

6、提高爬虫性能

【协程】异步非阻塞，并在网页解析器（BeautifulSoup）使用lxml模块（为c语言写的规则模块，效率高）解析。

7、待补充：

二、requests模块

Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。

Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。

1、get请求：

 1 # 1、无参数实例
 2   
 3 import requests
 4   
 5 ret = requests.get('https://github.com/timeline.json')
 6   
 7 print ret.url
 8 print ret.text
 9   
10   
11   
12 # 2、有参数实例
13   
14 import requests
15   
16 payload = {'key1': 'value1', 'key2': 'value2'}
17 ret = requests.get("http://httpbin.org/get", params=payload)
18   
19 print ret.url
20 print ret.text

View Code

目录：

一、爬虫原理

二、requests模块