【问题标题】:Incomplete robots.txt, what happens?robots.txt 不完整,会发生什么?
【发布时间】:2016-10-02 22:10:06
【问题描述】:

我在网站上有一个页面,但无法访问我的页面以外的任何内容。该网站用于销售各种小产品。 在与他们一起工作了一年多之后,在使用 google adwords 来帮助宣传自己之后,我注意到该产品的所有页面都没有在 google 上被编入索引。当我注意到该网站的 robots.txt 内容不多时,我想知道这是否与它有关。

产品网址遵循以下格式:

www.example.com/myshopname/[product ID]?q=I[product ID]

robots.txt 很简单:

Disallow: /*_escaped_fragment_

没有用户代理。我想知道这是否会对 Google 抓取我的页面产生任何影响,或者它是否会简单地忽略 robots.txt,因为没有指定用户代理。

【问题讨论】:

  • 在此处获取更多详细信息:moz.com/learn/seo/robotstxt
  • @Franco 我阅读了有关机器人的文档,没有关于不完整的 robots.txt 文件。据我所知,您必须先输入用户代理,然后再输入禁止规则。我不确定如果没有给出用户代理会发生什么......机器人是否像用户代理是*一样行事,还是会因为没有给出用户代理而简单地忽略不允许规则。如果它作为用户代理是*,那么该规则将如何应用?既然 AJAX 抓取现在已被弃用,它会忽略该规则吗?

标签: web-crawler robots.txt google-crawlers


【解决方案1】:

此 robots.txt 无效(根据original specification),因为每条记录至少需要一个User-agent 和至少一个Disallow 行。

规范并没有说消费者应该(尝试)解释无效记录。

所以,推测:

  • 严格的消费者会忽略这条无效记录。对于这些消费者,你的 robots.txt 将相当于一个不存在的 robots.txt,相当于这个:

    User-agent: *
    Disallow: 
    

    (即一切都允许)

  • 有礼貌的消费者可能会认为作者打算为此记录使用User-agent: *。对于这些消费者,您的 robots.txt 将等同于这个:

    User-agent: *
    Disallow: /*_escaped_fragment_
    

无论如何,您的 robots.txt 将(很可能)阻止任何消费者抓取路径以 /myshopname/ 开头的 URL(除非 URL 包含 _escaped_fragment_,在这种情况下,某些消费者可能会停止抓取它,即将* 解释为通配符的那些;顺便说一句,这不是原始规范的一部分。

【讨论】:

  • 谢谢,这就是我要找的。猜猜机器人是否会爬行,这取决于它如何解释这一点。
【解决方案2】:

我会在这里为您提供更多信息:

robots.txt 文件是您网络服务器上的一个简单文本文件,它告诉网络爬虫他们是否可以访问文件。 您始终可以访问此文件,因为它不是您的服务器系统文件的一部分,而是您的站点的一部分。

在你的情况下,我不知道/*_escaped_fragment_ 是什么意思,但是:

User-agent: *
Disallow: /

会屏蔽所有爬虫的访问

此时:

User-agent: *
Disallow:

允许完全访问您的网站。

User-agent: *
Disallow: /images/

将阻止对指定文件夹的访问

User-agent: *
Disallow: /images
Allow: /images/my_photo.jpg

即使您禁止某个文件夹,您也可以随时授予对该文件夹中指定文件的访问权限。

User-agent: *
Disallow: /assets.html

将阻止对指定文件的访问

所以star 表示所有爬虫,如果你想将指令应用到你需要做的指定爬虫:

User-agent: Googlebot

如果您对 googlebot 特别感兴趣并且想查看您的 robots.txt 是否阻止了您网站上的文件或文件夹,只需访问 https://developers.google.com/ 即可查看您是否阻止了页面资源。

还有必要说,虽然 robots.txt 可以成为您的 SEO 的有用工具,但应用的指令将受到所有常规爬虫的尊重。

恶意爬虫不关心这些指令。

【讨论】:

  • 我已经知道 robots.txt 的用途、使用方法以及相关文档。我的问题是,如何读取 incomplete 机器人文件。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-05-06
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-05-23
相关资源
最近更新 更多