【发布时间】:2011-02-04 07:53:31
【问题描述】:
我想从某些网站抓取有用的资源(如背景图片..)。这不是一项艰巨的工作,尤其是在一些很棒的项目(如scrapy)的帮助下。
这里的问题是我不仅想爬一次这个网站。我还想保持我的爬网长时间运行并爬网更新的资源。所以我想知道网络爬虫有什么好的策略来获取更新的页面?
这是我想到的一个粗略算法。我将爬行过程分成几轮。每轮 URL 存储库都会为爬虫提供一定数量(如 10000)的 URL 进行爬取。然后下一轮。具体步骤如下:
- 爬虫将起始 URL 添加到 URL 存储库
- 爬虫向 URL 存储库询问最多 N 个要爬取的 URL
- 爬虫抓取网址,并更新网址库中的某些信息,如页面内容、抓取时间以及内容是否已更改。
- 回到第 2 步
为了进一步说明,我仍然需要解决以下问题: 如何判断一个网页的“刷新率”,即表示该网页已经更新的概率?
由于这是一个悬而未决的问题,希望它会在这里带来一些富有成果的讨论。
【问题讨论】:
标签: web-crawler scrapy