1.统一资源定位符(URL)

URL用来在Web上定位一个文档。浏览器只是Web客户端的一种,任何一个向服务器端发送请求来获取数据的应用程序都被认为是客户端

URL格式:port_sch://net_loc/path;params?query#frag

port_sch  网络协议或者下载规划,如http

/net_loc  服务器位置,如www.baidu.com

path  斜杠/限定文件或者CGI应用程序的路径

params  可选参数

query  连接符&连接键值对

frag  拆分文档中的特殊锚

 

2.urllib模块

 1 urlopen(urlstr,postQueryData=None)    #打开一个给定URL字符串与Web连接,并返回了文件类的对象
 2 f.read([bytes])    #从f中读出所有或bytes个字节
 3 f.readline()    #从f中读出一行
 4 f.readlines()    #从f中读出所有行并返回一个列表
 5 f.close()    #关闭f的URL的连接
 6 f.fileno()    #返回f文件的句柄
 7 f.info()    #获得f的MIME头文件,文件类型可以用哪类应用程序打开
 8 f.geturl()    #返回f所打开的真正的URL
 9 
10 urlretrieve(urlstr,localfile=None,downloadStatusHook=None)
11 #可以方便地将urlstr定位到的整个HTML文件下载到本地的硬盘上。
12 #返回一个二元组(filename,mine_hdrs),filename是包含下载数据的本地文件名,mine_hdrs是对Web服务器响应后返回的一系列MIME文件头
13 
14 quote(urldata,safe='/')    #将urldata的无效的URL字符编码;在safe列的则不必编码
View Code

相关文章: