【发布时间】:2020-04-20 05:51:46
【问题描述】:
我在使用 AspiegelBot 抓取服务器上的一个站点时遇到问题,这会导致很多内核被用完。我一直试图在两个站点 htaccess 中阻止机器人,但没有成功。该机器人仍然经常出现在我的 access.log 中
114.119.165.232 - - [20/Apr/2020:07:38:40 +0200] "GET /tillbehor.html?size=98%2C422%2C423%2C1129%2C1378 HTTP/1.1" 301 296 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot)"
以下是我尝试过的一些方法:
htaccess
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.(Mb2345Browser|AspiegelBot|LieBaoFast|MicroMessenger|zh-CN|Kinza|Mb2345Browser).$ [NC]
RewriteRule .* - [F,L]
robots.txt
User-agent: *
Allow: /
Disallow: */shopby
#######################################
################ PAGES ################
#######################################
Disallow: /privacy-policy-cookie-restriction-mode/
Disallow: /terms/
#######################################
############# Block Bots ##############
#######################################
User-agent: MJ12bot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: rogerbot
Disallow:/
User-agent: dotbot
Disallow:/
User-agent: AhrefsBot
Disallow: /
User-agent: Alexibot
Disallow: /
User-agent: SurveyBot
Disallow: /
User-agent: Xenu's
Disallow: /
User-agent: Xenu's Link Sleuth 1.1c
Disallow: /
User-agent: AspiegelBot
Disallow: /
我是否遗漏了什么或写错了什么? Ï 有点不知所措。
【问题讨论】:
-
您的模式锚定在开头和结尾,并且在您尝试在大括号内匹配的内容之前和之后准确地要求 一个 任意字符,带有
.元字符.Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot)与该格式不匹配,绝对不是。 -
这个问题似乎是题外话,因为它是关于 SEO 这在 Stack Overflow 上是题外话。请阅读"Which SEO questions should be closed as non-programming/non-admin?",以更好地了解何时可以在此处提出 SEO 问题(大多数情况不可以)以及您可以在哪里获得帮助。
-
这显然不是 SEO 问题:OP 正试图代表机器人停止滥用行为。
-
我设法通过阻止起始 IP 序列来阻止机器人。这可能不是最佳的方法,但它确实有效。
Deny from 114.119.0.0/16
标签: .htaccess centos web-crawler robots.txt