【发布时间】:2009-09-29 11:35:11
【问题描述】:
我想用 Python 编写一个脚本,它可以从数据库中获取 url,并同时下载网页以加快速度,而不是等待每个页面一个接一个地下载。
根据this thread,Python 不允许这样做,因为名为@987654322@ 的东西会阻止多次启动同一个脚本。
在花时间学习 Twisted 框架之前,我想确保没有更简单的方法来完成我需要做的上述工作。
感谢您的任何提示。
【问题讨论】:
-
非并发,但非常可靠,小心(而且是旧的!)实现伴随您的 Python 安装(或在线浏览 svn.python.org/view/python/trunk/Tools/webchecker)——确保在您的并发实现中应用所有它的礼貌和预防措施(robots.txt 解析等;-)。
-
@Alex,是否有一个集中的位置来提供与网络抓取相关的所有礼遇和预防措施?
-
对于使用 Python3 和
urllib3的简洁解决方案,请参阅另一个答案:stackoverflow.com/a/52172680/127465
标签: python concurrent-processing