Python爬虫笔记（一）

个人笔记，仅适合个人使用（大部分摘抄自python修行路）

1、爬虫Response的内容

　　便是所要获取的页面内容，类型可能是HTML,Json（json数据处理链接）字符串，二进制数据（图片或者视频）

2、请求方式

　　主要有：GET/POST两种类型常用，另外还有HEAD/PUT/DELETE/OPTIONS
　　GET和POST的区别就是：请求的数据GET是在url中，POST则是存放在头部

　　GET:向指定的资源发出“显示”请求。使用GET方法应该只用在读取数据，而不应当被用于产生“副作用”的操作中，例如在Web Application中。其中一个原因是GET可能会被网络蜘蛛等随意访问

　　POST:向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源，或二者皆有。

HEAD：与GET方法一样，都是向服务器发出指定资源的请求。只不过服务器将不传回资源的本文部分。它的好处在于，使用这个方法可以在不必传输全部内容的情况下，就可以获取其中“关于该资源的信息”（元信息或称元数据）。

　　PUT：向指定资源位置上传其最新内容。

　　OPTIONS：这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用'*'来代替资源名称，向Web服务器发送OPTIONS请求，可以测试服务器功能是否正常运作。

　　DELETE：请求服务器删除Request-URI所标识的资源。

3、请求URL

　　URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

　　URL的格式由三个部分组成：
　　第一部分是协议(或称为服务方式)。
　　第二部分是存有该资源的主机IP地址(有时也包括端口号)。
　　第三部分是主机资源的具体地址，如目录和文件名等。

4、请求头

　　包含请求时的头部信息，如User-Agent,Host,Cookies等信息

5、响应状态

　　有多种响应状态，如：200代表成功，301跳转，404找不到页面，502服务器错误

1xx消息——请求已被服务器接收，继续处理
2xx成功——请求已成功被服务器接收、理解、并接受
3xx重定向——需要后续操作才能完成这一请求
4xx请求错误——请求含有词法错误或者无法被执行
5xx服务器错误——服务器在处理某个正确请求时发生错误常见代码： 200 OK 请求成功 400 Bad Request 客户端请求有语法错误，不能被服务器所理解 401 Unauthorized 请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用 403 Forbidden 服务器收到请求，但是拒绝提供服务 404 Not Found 请求资源不存在，eg：输入了错误的URL 500 Internal Server Error 服务器发生不可预期的错误 503 Server Unavailable 服务器当前不能处理客户端的请求，一段时间后可能恢复正常 301 目标永久性转移 302 目标暂时性转移

6、url.lib

　　Urllib是python内置的HTTP请求库
　　包括以下模块
　　urllib.request 请求模块
　　urllib.error 异常处理模块
　　urllib.parse url解析模块
　　urllib.robotparser robots.txt解析模块

urlopen一般常用的有三个参数，它的参数如下：
urllib.requeset.urlopen(url,data,timeout)

异常处理：

URLError,HTTPError，HTTPError是URLError的子类

URLError里只有一个属性：reason,即抓异常的时候只能打印错误信息，类似上面的例子

HTTPError里有三个属性：code,reason,headers，即抓异常的时候可以获得code,reson，headers三个信息

7、requests

　　Requests是用python语言基于urllib编写的，封装后方便爬虫

　　功能演示

import requests
requests.packages.urllib3.disable_warnings() #https的警告信息去除

response = requests.get("https://www.baidu.com",verify=False) #设置verify = False 否则https请求会失败

print(response.status_code)

#print(response.text)

print(response.cookies)

print(response.cookies.get_dict())

#print(response.content)

print(type(response.content))

print(response.content.decode("utf-8"))

　　六个方法

requests.get()

requests.post("http://httpbin.org/post")

requests.put("http://httpbin.org/put")
requests.delete("http://httpbin.org/delete")
requests.head("http://httpbin.org/get")
requests.options("http://httpbin.org/get")

　　1、get

import requests

requests.packages.urllib3.disable_warnings()

headers = dict()
headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3387.400 QQBrowser/9.6.11984.400'


''' 
payload = {'key1': 'value1', 'key2': 'value2'}
ret = requests.get("http://httpbin.org/get", params=payload)
 
print (ret.url)
print (ret.text)
'''


url = 'https://github.com'

ret = requests.get('https://www.zhihu.com',verify=False, headers = headers)
 
print (ret.url)
print (ret.text[:300])

get demo