爬取网站的背景调研

在爬取一个网站之前我们首先需要对目标站点的规模和结构进行一定程度的了解，这里可以通过对网站自身的robots.txt和Sitemap文件进行了解。

robots.txt文件让爬虫了解爬取该网站存在哪些限制，这里以淘宝网为例，如下所示：

爬取网站的背景调研

里面列出了禁止的用户代理Baiduspider、Yahoo！等等

有些网站还会提供Sitemap文件用于定位网站最新的内容，不过目前很多网站都没有了，估计是防止爬虫吧！

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode