【发布时间】:2013-12-21 15:22:42
【问题描述】:
我有一个 python 脚本,它将搜索页面源并下载它在源中找到的任何文件。
但是,该脚本实际上会下载不存在的文件(死链接)。
我做了一些研究,发现可以使用 HEAD 来克服这个问题,它提供了错误代码,而无需下载文件或类似的东西。
基本上,我想检查服务器是否返回 404。如果是,那么我的文件不存在,我不想下载它。
我发现以下代码似乎可行,但需要进行一些更改才能与我的脚本一起使用..
c = httplib.HTTPConnection(<hostname>)
c.request("HEAD", <url>)
print c.getresponse().status
urllib.urlretrieve(test, get)
应该等于网站 (http://google.com) 应该等于文件(/file1.pdf)
我需要此代码才能工作,因此它只需要 URL:http://google.com/file1.pdf 即可工作..
有没有我可以做到的?
代码取自这里:How do I check the HTTP status code of an object without downloading it?
【问题讨论】:
标签: python file-io download head