【发布时间】:2014-05-12 08:12:00
【问题描述】:
我正在使用urllib.urlopen() 方法和 BeautfulSoup 进行爬行。我对浏览速度不满意,我正在考虑 urllib 正在解析什么,猜测它必须加载的不仅仅是 html。在文档中找不到它是否默认读取或检查更大的数据(图像、闪存等)。
那么,如果 urllib 必须加载,即图像、flash、js……如何避免对此类数据类型的 GET 请求?
【问题讨论】:
-
您是否要同时加载多个网站?
-
好的,谢谢你的提问。
-
看看here这个问题——也许你可以使用这些技术同时处理更多请求。可以产生很大的不同(带宽足够,大部分延迟都是“等待”)。
-
您可以查看 Scrapy 以使用 Python 进行网络抓取。 scrapy.org默认会并行处理网页。
标签: python web-services web-crawler urllib