【问题标题】:What is monodoc.ashx and why does googlebot request it?什么是 monodoc.ashx,为什么 googlebot 要求它?
【发布时间】:2011-09-30 08:33:26
【问题描述】:

我收到了很多请求。它们都以

开头
/1.1/handlers/monodoc.ashx?link=

然后遵循看起来像 .NET 的类。这些是什么?为什么 googlebot 会请求它们?

我需要关闭它,这样我的访问和错误日​​志才不会被污染。

【问题讨论】:

  • 你确定是 googlebot 吗?它看起来更像是恶意软件扫描漏洞。
  • @Roger:这正是我的想法,但 ip 是 66.249.68.184,反向 ip 查找显示似乎是谷歌拥有的网站whois.domaintools.com/66.249.68.184

标签: web googlebot


【解决方案1】:

Googlebot 会请求它知道的任何网址,其中包括您可能没有自己生成的网址。

例如,如果有一个论坛使用该 URI 链接到您的网站,Googlebot 将尝试抓取它以查看是否有任何值得索引的信息。

根据提供的 IP,我确认它确实是 Googlebot,因为反向 DNS 查找解析为“crawl-66-249-68-184.googlebot.com”,而正向 DNS 查找解析为“crawl-66-249-” 68-184.googlebot.com' 解析回提供的 IP 地址。

如果该页面不存在,您可以做的最好的事情是响应 404 或 410 响应。如果您知道曾经有哪些内容,您应该 301 将其重定向到您网站上的相关页面,以防其他人链接到这些页面……您不仅希望保留这些链接的链接信用,但对于关注该链接的用户来说,这只是一种更好的用户体验。如果没有将用户 301 重定向到的相关位置,您可以将他们重定向到您的主页,但要知道从 SEO 的角度来看,链接值会衰减,因为链接的相关性可能不会完全匹配您主页的内容。

请务必确保您没有使用 500 或 503 响应代码进行响应。如果您有大量 5xx 类型的响应,Googlebot 会认为它对您的网站的打击太大,会限制它们的抓取。

最后,即使您发送 301、404 或发送 410 响应……也希望 Googlebot 在某个时间(例如,甚至几年后)访问这些网址。我的网站每隔几周就会收到大量 Googlebot 流量,这些流量来自于早已失效的旧版 URI。那里有一些旧的硬皮网址,Googlebot 会不时遇到它们,然后尝试重新抓取它们。他们甚至会保留一份历史列表,当他们觉得有额外的带宽可以分配给您的网站时,他们会尝试抓取该列表。

TL;DR:别担心。 Googlebot 会无缘无故点击这些网址。只需发送将是最佳用户体验的响应,就可以了。

【讨论】:

  • 我还在机器人中加入了一个禁止,这样他们就不会打扰我,但我服务 404 的时间最长
  • @acidzombie24 是的......我有很多 404、410 和 301 的例子......所有这些都在实施 4-5 年后获得了 Googlebot 流量。他们有这个 URL 池,他们只是不断地重新检查它们“以防万一”。这有点烦人,但实际上你无能为力。 ¯_(ツ)_/¯
猜你喜欢
  • 2013-01-17
  • 1970-01-01
  • 2010-12-08
  • 2011-10-31
  • 2011-12-01
  • 2011-01-05
  • 1970-01-01
  • 2011-01-15
  • 2017-01-10
相关资源
最近更新 更多