【发布时间】:2014-01-18 06:08:46
【问题描述】:
Googlebot 正在抓取我们的网站。根据我们的 URL 结构,它正在猜测新的可能 URL。
我们的结构是/x/y/z/param1.value。现在 google bot 用大量不同的关键字交换 x,y,z 和 value 的值。
问题是,每次调用都会触发非常昂贵的操作,并且仅在极少数情况下才会返回积极的结果。
我尝试在站长工具的抓取部分设置一个 url 参数(param1. -> 不抓取)。但这似乎不起作用,可能是我们的内联url格式的原因(使用html获取格式?param1=..会更好吗?)
由于Disallow: */param1.* 似乎不是允许的 robots.txt 条目,是否有其他方法可以禁止 google 抓取此网站?
作为另一种解决方案,我想检测 googlebot 并向他返回一个特殊页面。 不过听说这会被google惩罚。
目前我们总是返回一个 http 状态代码 200 和一个人类可读的页面,上面写着:“没有找到适合您的过滤条件的目标”。返回另一个状态码会有帮助吗?
【问题讨论】:
-
您确定是googlebot在抓取未知网址吗?测试的页面是否显示在网站管理员工具中?
-
您好 Joachim,我很确定是 googlebot 抓取了我的网页。网站管理员工具显示的页面比我的站点地图中的多得多。网站管理员抓取活动也适合我的日志
-
您好 Joachim,感谢您提供指向 Google 建议的链接。有很多关于处理错误和意外 404 错误的信息。现在,如果我的过滤器没有找到结果,我会返回 404。我将在接下来的几天内观察 googlebot 的行为并在这里分享结果。也许机器人会停止猜测和抓取这些网址。
标签: robots.txt googlebot