在爬取一个网站之前我们首先需要对目标站点的规模和结构进行一定程度的了解,这里可以通过对网站自身的robots.txt和Sitemap文件进行了解。

robots.txt文件让爬虫了解爬取该网站存在哪些限制,这里以淘宝网为例,如下所示:

爬取网站的背景调研

里面列出了禁止的用户代理Baiduspider、Yahoo!等等

有些网站还会提供Sitemap文件用于定位网站最新的内容,不过目前很多网站都没有了,估计是防止爬虫吧!

相关文章: