【发布时间】:2011-07-12 07:53:17
【问题描述】:
我一直在阅读有关网络爬虫的内容,并获得了一份充满考虑的清单,但是有一个问题我还没有找到任何讨论。
应该多久为任何给定网站提取 robots.txt?
我的情况是,对于任何特定网站,爬网速度非常慢,每天可能有 100 个页面。 假设一个网站添加了一个新部分(/humans-only/),其他页面链接到该部分。同时在 robots.txt 中添加相应的行。蜘蛛可能会在更新 robots.txt 之前找到指向此部分的链接。
有趣的是,写下一个问题如何给出解决方案。 在提出上述问题时,我想到了一个解决方案。
robots.txt 可以很少更新,例如每天一次。 但是所有新发现的链接都应该放在队列中,直到下一次更新 robots.txt。 robots.txt 更新后,现在可以抓取所有通过的未决链接。
对此有任何其他想法或实践经验吗?
【问题讨论】: