urllib基础
要系统学习urllib模块,需要先学习基础的urllib,下面会提到urlretrieve(),urlcleanup(),info(),getcode(),geturl()等

urlretrieve()获取某个网页写入内存中,下面爬取豆瓣首页:(可以不赋值data)


Urllib库实战

urlcleanup()清除内存,info()返回当前环境信息,如下:

Urllib库实战

getcode()是当前网页的状态码,200为正常,403即找不到网页,geturl()返回当前网页地址,代码如下:Urllib库实战



超时设置
根据自己的需要设置访问一个网页时间,爬取网页中内容:比如我们这里设置一秒,爬取豆瓣首页Urllib库实战

这里简单介绍一下异常处理:比如连续一百次访问豆瓣(ps:我这里没有出现异常)Urllib库实战

出现异常的例子数值如下:Urllib库实战


自动模拟HTTP请求

这里主要讲post和get两种,用于登录和搜素某些信息:
get请求
比如打开网页,搜索python,分析地址发现可以去掉一些无关字段,Urllib库实战

依然可以访问原来地址,页面无变化,所以  https://www.sogou.com/tx?query=python     
红色部分是搜索内容可以替换为其他关键词
为模拟get请求
Urllib库实战

下面输入关键字 java
代码及其输出结果:Urllib库实战

打开结果
Urllib库实战

如果关键字为 人工智能
需要编码一下,具体如下:
Urllib库实战


结果如下:Urllib库实战


post请求
比如登录新浪网站获取登录后的网址:
Urllib库实战


这里涉及到网站防反扒机制之验证码处理情况,所以内容比较多!
望各位见谅,想要了解可以私信我,我会为各位一一解答!





相关文章: