网络爬虫引发的问题

网络爬虫的尺寸

网络爬虫遵守规则

 

网络爬虫骚扰

 网络爬虫遵守规则

 

网络爬虫的法律风险

网络爬虫泄露隐私

网络爬虫的限制

1.通过请求头

网络爬虫遵守规则

 

 2.发布公告:Robots协议

告知所有爬虫网站的爬取策略,要求爬虫遵守。

 

 

Robots协议

网络爬虫排除标准

作用:告知网络爬虫哪些页面可以抓取,哪些不行

形式:在网站根目录下的robots.txt文件

网络爬虫遵守规则

网络爬虫遵守规则

 

 

 

案例:真实的Robots协议

 

https://www.baidu.com/robots.txt

 

http://news.sina.com.cn/robots.txt

 

https://www.qq.com/robots.txt

 

https://news.qq.com/robots.txt

 

http://www.moe.edu.cn/robots.txt (无robots协议)

 

 

 

Robots协议的遵守方法

网络爬虫遵守规则

 

 

 

网络爬虫遵守规则

 

相关文章:

  • 2022-12-23
  • 2021-09-05
  • 2022-02-02
  • 2021-12-05
  • 2022-12-23
  • 2021-12-20
  • 2021-10-21
  • 2021-11-26
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-12-19
  • 2021-08-03
  • 2021-12-02
  • 2021-10-16
  • 2022-12-23
相关资源
相似解决方案