Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用:告知网络爬虫哪些可以爬取,哪些不可以

形式:在网站根目录下的robots.txt文件


例如京东的网站:

网络爬虫 Robots协议


Robots协议基本语法:

#注释  *代表所有  \代表根目录

User-agent: *

Disallow: /


Robots协议的使用

网络爬虫:自动或人工的识别robots.txt,在进行内容爬取

约束性:Robots协议是建议但非约束性,网络爬虫可不遵守,但有法律风险


相关文章:

  • 2021-11-03
  • 2021-09-03
  • 2022-12-23
  • 2022-12-23
  • 2021-11-16
  • 2021-05-05
猜你喜欢
  • 2021-12-13
  • 2021-11-03
  • 2021-11-03
  • 2022-01-19
  • 2022-12-23
  • 2022-12-23
  • 2021-11-03
相关资源
相似解决方案