【问题标题】:Robots.txt not working [closed]Robots.txt 不工作[关闭]
【发布时间】:2010-09-08 03:45:08
【问题描述】:

我使用 robots.txt 来限制我网站中的一个文件夹。该文件夹包含正在建设中的站点。谷歌已将所有处于测试阶段的网站编入索引。所以我使用了 robots.txt。我首先提交了站点并且启用了 robots.txt。现在状态为 www.mysite.com/robots.txt 的成功。但谷歌仍在列出这些测试链接。这是我为 robots.txt 编写的代码...

User-agent: *
Disallow: /foldername/

谁能告诉我问题可能是什么?提前致谢

【问题讨论】:

  • 会不会是 Google 在您引入 robots.txt 之前缓存了您的网页
  • 谢谢李,那我该怎么办?

标签: robots.txt web-crawler


【解决方案1】:

您是否按照 Google 的说明测试了您的 robots.txt? http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156449

测试站点的 robots.txt 文件:
  • 在网站管理员工具主页上,单击所需的站点。
  • 在站点配置下,单击爬虫访问
  • 如果尚未选中,请单击测试 robots.txt 选项卡。
  • 复制 robots.txt 文件的内容,并将其粘贴到第一个框中。
  • 在 URL 框中,列出要测试的站点。
  • 在用户代理列表中,选择所需的用户代理。


站长工具:https://www.google.com/webmasters/tools/home?hl=en

【讨论】:

  • 谢谢 Mondain.........我认为 robots.txt 下载成功。在测试 robots.txt 选项卡上,有三列,如 robots.txt 文件、已下载和状态,每列都有一条消息 www.mysite.com/robots.txt,17 小时前,200(成功)。我认为抓取完成了
【解决方案2】:

请参阅 Google 网站管理员博客中的 Requesting Removal of Content from our Index。您可以通过使用Google Webmaster Tools 提交删除请求来加快删除过程;否则,页面在重新抓取时最终会从索引中删除(即更新 robots.txt 文件不会立即更改;更改会在后续抓取时发生)。

【讨论】:

  • 谢谢迈克尔,我也用过这个。我的删除网址是 www.mysite.com/foldername/。状态被删除。但还是不行。
  • 我会稍等一下...在生效之前可能会有一些延迟。
猜你喜欢
  • 2010-10-02
  • 1970-01-01
  • 2010-09-25
  • 1970-01-01
  • 2011-01-26
  • 1970-01-01
  • 2013-02-04
  • 2014-05-04
  • 2016-04-26
相关资源
最近更新 更多