【发布时间】:2009-11-23 17:20:13
【问题描述】:
我正在用 Python 开发一个多进程蜘蛛。它应该开始抓取一页的链接并从那里开始工作。具体来说,顶级页面包含类别列表、这些类别中的二级页面事件以及事件中的最终、三级页面参与者。我无法预测会有多少类别、活动或参与者。
我不知道如何最好地设计这样的蜘蛛,尤其是如何知道它何时完成爬网(预计它会继续运行,直到它发现并检索到每个相关页面)。
理想情况下,第一次抓取是同步的,其他一切都是异步的,以最大限度地并行解析和添加到数据库,但我一直不知道如何确定抓取何时完成。
你建议我如何构建蜘蛛,就并行进程,尤其是上述问题而言?
【问题讨论】:
标签: python multithreading web-crawler