【发布时间】:2012-04-02 16:57:01
【问题描述】:
我正在编写一个同时处理多个 URL 的网络爬虫,工作方式如下:
它从包含在seed_list.txt 中的URL 列表中获取一个URL,
它抓取它并将数据写入data.txt;
就像大多数网络爬虫的工作方式一样。
当我使它成为单线程时,我可以按照与seed_list.txt中的URL相同的顺序获取data.txt中的数据,但是当它是多线程时,我似乎无法控制它,因为每个线程在完成后将数据写入 data.txt。
有没有一种方法可以让我的网络爬虫多线程但保持原来的顺序?
非常感谢!
@Lance、Ignacio 和 Maksym,
感谢大家的帮助——你们的回答肯定为我指明了正确的方向。
【问题讨论】:
标签: python web-crawler python-2.7