Googlebot 猜测网址。如何避免/处理这种爬行答案

【问题标题】：Googlebot guesses urls. How to avoid/handle this crawlingGooglebot 猜测网址。如何避免/处理这种爬行
【发布时间】：2014-01-18 06:08:46
【问题描述】：

Googlebot 正在抓取我们的网站。根据我们的 URL 结构，它正在猜测新的可能 URL。

我们的结构是/x/y/z/param1.value。现在 google bot 用大量不同的关键字交换 x,y,z 和 value 的值。问题是，每次调用都会触发非常昂贵的操作，并且仅在极少数情况下才会返回积极的结果。

我尝试在站长工具的抓取部分设置一个 url 参数（param1. -> 不抓取）。但这似乎不起作用，可能是我们的内联url格式的原因（使用html获取格式?param1=..会更好吗？）

由于Disallow: */param1.* 似乎不是允许的 robots.txt 条目，是否有其他方法可以禁止 google 抓取此网站？

作为另一种解决方案，我想检测 googlebot 并向他返回一个特殊页面。不过听说这会被google惩罚。

目前我们总是返回一个 http 状态代码 200 和一个人类可读的页面，上面写着：“没有找到适合您的过滤条件的目标”。返回另一个状态码会有帮助吗？

【问题讨论】：

您确定是googlebot在抓取未知网址吗？测试的页面是否显示在网站管理员工具中？
另外，these are Google recommendations for non existing pages。
您好 Joachim，我很确定是 googlebot 抓取了我的网页。网站管理员工具显示的页面比我的站点地图中的多得多。网站管理员抓取活动也适合我的日志
您好 Joachim，感谢您提供指向 Google 建议的链接。有很多关于处理错误和意外 404 错误的信息。现在，如果我的过滤器没有找到结果，我会返回 404。我将在接下来的几天内观察 googlebot 的行为并在这里分享结果。也许机器人会停止猜测和抓取这些网址。

【解决方案1】：

注意：这可能不是一个普遍的答案！

约阿希姆是对的。事实证明，googlebot 并没有猜测 URL。

做了一些研究，我发现我在半年前在我的网站中添加了一个新的 DIV，其中包含那些特殊的 URL（很遗憾我忘记了）。一周前，googlebot 已经开始抓取它。

我的解决方案：我删除了 DIV，并在这些 URL 上返回了 404 状态代码。我认为，googlebot 迟早会在重新访问我的网站后停止抓取网址。

感谢您的帮助！

【讨论】：