【问题标题】:Googlebot guesses urls. How to avoid/handle this crawlingGooglebot 猜测网址。如何避免/处理这种爬行
【发布时间】:2014-01-18 06:08:46
【问题描述】:

Googlebot 正在抓取我们的网站。根据我们的 URL 结构,它正在猜测新的可能 URL。

我们的结构是/x/y/z/param1.value。现在 google bot 用大量不同的关键字交换 x,y,zvalue 的值。 问题是,每次调用都会触发非常昂贵的操作,并且仅在极少数情况下才会返回积极的结果。

我尝试在站长工具的抓取部分设置一个 url 参数(param1. -> 不抓取)。但这似乎不起作用,可能是我们的内联url格式的原因(使用html获取格式?param1=..会更好吗?)

由于Disallow: */param1.* 似乎不是允许的 robots.txt 条目,是否有其他方法可以禁止 google 抓取此网站?

作为另一种解决方案,我想检测 googlebot 并向他返回一个特殊页面。 不过听说这会被google惩罚。

目前我们总是返回一个 http 状态代码 200 和一个人类可读的页面,上面写着:“没有找到适合您的过滤条件的目标”。返回另一个状态码会有帮助吗?

【问题讨论】:

  • 您确定是googlebot在抓取未知网址吗?测试的页面是否显示在网站管理员工具中?
  • 您好 Joachim,我很确定是 googlebot 抓取了我的网页。网站管理员工具显示的页面比我的站点地图中的多得多。网站管理员抓取活动也适合我的日志
  • 您好 Joachim,感谢您提供指向 Google 建议的链接。有很多关于处理错误和意外 404 错误的信息。现在,如果我的过滤器没有找到结果,我会返回 404。我将在接下来的几天内观察 googlebot 的行为并在这里分享结果。也许机器人会停止猜测和抓取这些网址。

标签: robots.txt googlebot


【解决方案1】:

注意:这可能不是一个普遍的答案!

约阿希姆是对的。事实证明,googlebot 并没有猜测 URL。

做了一些研究,我发现我在半年前在我的网站中添加了一个新的 DIV,其中包含那些特殊的 URL(很遗憾我忘记了)。一周前,googlebot 已经开始抓取它。

我的解决方案:我删除了 DIV,并在这些 URL 上返回了 404 状态代码。我认为,googlebot 迟早会在重新访问我的网站后停止抓取网址。

感谢您的帮助!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-10-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-04-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多