Urllib库实战 - 爱码网

urllib基础

要系统学习urllib模块，需要先学习基础的urllib，下面会提到urlretrieve(),urlcleanup(),info(),getcode(),geturl()等

urlretrieve()获取某个网页写入内存中，下面爬取豆瓣首页：（可以不赋值data）

urlcleanup()清除内存，info()返回当前环境信息，如下：

getcode()是当前网页的状态码，200为正常，403即找不到网页，geturl()返回当前网页地址,代码如下： Urllib库实战

超时设置

根据自己的需要设置访问一个网页时间，爬取网页中内容：比如我们这里设置一秒，爬取豆瓣首页 Urllib库实战

这里简单介绍一下异常处理：比如连续一百次访问豆瓣（ps：我这里没有出现异常） Urllib库实战

出现异常的例子数值如下： Urllib库实战

自动模拟HTTP请求

这里主要讲post和get两种，用于登录和搜素某些信息：

get请求

比如打开网页，搜索python，分析地址发现可以去掉一些无关字段， Urllib库实战

依然可以访问原来地址，页面无变化，所以 https://www.sogou.com/tx?query=python

红色部分是搜索内容可以替换为其他关键词

即为模拟get请求

下面输入关键字 java

代码及其输出结果：

打开结果

如果关键字为人工智能

需要编码一下，具体如下：

结果如下：

post请求

比如登录新浪网站获取登录后的网址：

这里涉及到网站防反扒机制之验证码处理情况，所以内容比较多！

望各位见谅，想要了解可以私信我，我会为各位一一解答！