一:urllib基础

     要系统的学习urllib模块,就要从基础开始,下面会为大家实战讲解urlretrieve()、urlcleanup()、info()、getcode()、geturl()等。

二:实战讲解

    1:urlretrieve()的应用,可以将网站网址直接爬取到本地中

       格式:  request.urlretrieve(url,filename)     url为 要爬取的网站的地址,filename为本地的名。

urllib实战2--urllib基础urlretrieve()、urlcleanup()、info()、getcode()、geturl()的应用

此时打开文件

urllib实战2--urllib基础urlretrieve()、urlcleanup()、info()、getcode()、geturl()的应用

打开015y.html这个文件.

urllib实战2--urllib基础urlretrieve()、urlcleanup()、info()、getcode()、geturl()的应用

 2:urlcleanup()的应用,可以将urlretrieve()中的缓存清理掉:

urllib实战2--urllib基础urlretrieve()、urlcleanup()、info()、getcode()、geturl()的应用

3:info() 可以将当前的基本环境信息显示出来:

urllib实战2--urllib基础urlretrieve()、urlcleanup()、info()、getcode()、geturl()的应用

4:getcode()获取当前的网页的状态码,geturl()获取当前的网页的网址。

     200状态码表示网页正常,403表示不正常。

urllib实战2--urllib基础urlretrieve()、urlcleanup()、info()、getcode()、geturl()的应用

三。综上所述,所有代码为:

>>> from urllib import request
>>> request.urlretrieve("http://www.hellobi.com",filename="G:/BaiduDownload/python网络爬虫/WODE/015y.html")
>>> request.urlcleanup()
>>> request.urlopen("http://www.hellobi.com")
>>> file=request.urlopen("http://www.hellobi.com")
>>> file.info()
>>> file.getcode()
>>> file.geturl()

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-11-17
  • 2021-12-15
猜你喜欢
  • 2022-12-23
  • 2021-10-31
  • 2022-12-23
  • 2022-12-23
  • 2021-08-16
  • 2021-11-07
  • 2022-12-23
相关资源
相似解决方案