python网络爬虫零碎点

requests库

requests库中以request方法为基础，扩展了六个方法，共7个主要方法:

方法	说明	调用
requests.request()	构造一个请求，支撑以下各方法的基础方法	request(method, url, **kwargs
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET	requests.get(url, params=None, **kwargs)
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD	requests.head(url, **kwargs)
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST	requests.post(url, data=None, json=None, **kwargs)
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT，全提交	requests.put(url, data=None, **kwargs)
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH	requests.patch(url,data=None, **kwargs)
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE	requests.delete(url, **kwargs)

其方法返回的类型为Response对象，包含爬虫包含的信息（服务器所有限信息、Request请求信息）;

request方法kwargs可选参数：

params：字典或字节序列，作为参数增加到url中；
data：字典、字节序列或文件对象，作为Request的提交内容；
json：JSON格式的数据；
headers：字典，HTTP定制头；
cookies：字典或CookieJar，Request中的cookie；
auth：元组，支持HTTP认证功能；
files：字典类型，传输文件；
timeout：设置超时时间；
proxies：字典类型，设定访问代理服务器，可以增加登录认证，防止爬虫逆追踪；
allow_redirects：True/False，默认为True，重定向开关；
stream：True/False,默认为True，获取内容立即下载开关；
verigy:True/False，默认为True，认证SSL证书开关；
cert：本地SSL证书路径；

Response对象属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

如果返回信息的header中不存在charset，则认为编码为ISO-8859-1，r.text根据r.encoding显示网页内容；若不知道网页编码格式，则可以通过根据网页内容分析出的编码方式r.apparent_encoding来设置r.encoding。

理解requests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectionTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果状态不是200，引发requests.HTTPError异常

爬取网页通用代码框架：

import requests

def getHTMLText(url):
	try:
		r = requests.get(url, timeout=30)
		r.raise_for_status()  #如果状态不是200，引发HTTPError异常
		r.encoding = r.apparent_encoding
		return r.text
	except:
		return '产生异常'
if __name__ == '__main__':
	url = 'http://www.baidu.com'
	print(getHTMLText(url))

Robots协议

Robots Exclusion Standard 网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以爬取，哪些不行；
形式：在网站根目录下的robots.txt文件。

类人类行为可不参考Robots协议

# 注释：*代表所有，/代表根目录
User-agent:*
Disallow:/

BeautifulSoup库

BeautifulSoup库是解析、遍历、维护“标签树”的功能库,对应一个打开的html的全部内容。

安装：pip install beautifulsoup4
使用：soup = BeautifulSoup(‘data’, ‘html.parser’)

beautifulesoup解析库

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,‘html.parser’)	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,‘lxml’)	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,‘xml’)	pip install lxml
html5lib的解析器	BeautifulSoup(mk,‘html5lib’)	pip install html5lib

beautifulsoup基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字， … 的名字是’p’，格式：.name
Attributes	标签的属性，字典形式组织，格式：.attrs
NavigableString	标签内非属性字符串，<>…</>中字符串，格式：.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

下行遍历

属性	说明
.contents	子节点的列表，将所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

注：在平行遍历以及下行遍历中，标签之前有可能存在NavigableString，其也作为一个标签存在于查询结果列表中。

python网络爬虫零碎点