天蛛爬虫学习笔记——盗亦有道

爬虫应该遵循网络协议,有些网站中有Robots协议需要遵守,查看某个网站的Robots协议在对应的URL后加robots.txt,例如:https://www.csdn.net/robots.txt。
天蛛爬虫学习笔记——盗亦有道
User_agent:*,表示对所以的爬虫用户
Disallow:/scripts ,表示禁止爬取/根目录下的 scripts 目录

User_agent:EtaoSpider ,表示针对某个特定的爬虫程序
Disallow:/ ,禁止全区根目录下的所有文件

另外有些网站会设置反爬虫,连接成功但是获取不到信息

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-01-16
  • 2021-07-10
  • 2021-12-24
猜你喜欢
  • 2021-12-24
  • 2022-12-23
  • 2021-05-27
  • 2022-12-23
  • 2022-01-10
  • 2021-06-17
  • 2021-12-08
相关资源
相似解决方案