【发布时间】:2011-08-02 17:23:02
【问题描述】:
我有一个我想要抓取的链接列表。我想要爬虫的所有其他链接
自己发现自己爬不进去。
我查看的方向:创建一个 robots.txt,它将禁止所有页面都期望那些存在于我的站点地图中的页面。我看到了有关如何创建此类文件的信息,其中指出我可以通过以下方式禁止网站的某些部分:Allow: /folder1/myfile.html
Disallow: /folder1/
但我确实想要抓取的链接不在特定文件夹中。我可以为他制作一个实际上是站点地图的休文件,但这似乎不合理。你会推荐什么?
【问题讨论】:
标签: web-crawler sitemap robots.txt google-crawlers