【发布时间】:2016-06-09 19:37:27
【问题描述】:
我的网站上有一个爬虫,在它的用户代理中没有识别为机器人。
其中一个 IP 地址是:
131.161.8.197
所有机器人都属于 131.161 的 IP 范围。
显然它是一个基于ipwhois的“巴西百度”。
我应该继续阻止整个 ips 范围吗?
【问题讨论】:
-
是的,你可以阻止它
标签: .htaccess web-crawler robots.txt
我的网站上有一个爬虫,在它的用户代理中没有识别为机器人。
其中一个 IP 地址是:
131.161.8.197
所有机器人都属于 131.161 的 IP 范围。
显然它是一个基于ipwhois的“巴西百度”。
我应该继续阻止整个 ips 范围吗?
【问题讨论】:
标签: .htaccess web-crawler robots.txt
所以它起源于巴西,问题真的是......你需要瞄准巴西地区吗?
阻止爬虫意味着你需要处理的流量更少,所以我个人会同意阻止它。
您可以使用 robots.txt 或通过服务器端进行操作。显然你可以使用:
Order Deny,Allow
Deny from 131.161.8.197
或:
User-agent: Baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
Disallow: /
【讨论】: