【发布时间】:2015-08-28 07:47:11
【问题描述】:
我正在使用 mechanize 库编写一个简单的 Python 网络爬虫。
现在,我只想做以下事情:
- 接受 startURL 列表作为输入
- 对于 startURLs 中的每个 URL,抓取页面上的所有链接
- 然后,对每个链接执行 HTTP 请求,并从中获取所有链接...
- 从 startURL 到指定深度重复此操作。
所以我的问题是,当它在第 3 步时,我希望它跳过下载指向图像文件的任何链接(所以如果有一个 URL http://www.example.com/kittens.jpg)然后我希望它不要将它添加到列表中要获取的 URL。
显然我可以通过使用正则表达式来匹配 URL 路径中的各种文件扩展名来做到这一点,但我想知道是否有一种更简洁的方法来确定 URL 是否指向图像文件,而不是 HTML文档。是否有某种库函数(在 mechanize 或其他库中)可以让我这样做?
【问题讨论】:
标签: python url web-crawler html-parsing mechanize