【问题标题】:robots.txt which folders to disallow - SEO?robots.txt 禁止哪些文件夹 - SEO?
【发布时间】:2013-01-26 01:29:07
【问题描述】:

我目前正在编写我的 robots.txt 文件,但在决定是否应允许或禁止某些文件夹用于 SEO 时遇到了一些问题。

这是我的文件夹:

  • /css/ (css)
  • /js/ (javascript)
  • /img/(我用于网站的图片)
  • /php/(PHP 将返回一个空白页面,例如 checkemail.php 会检查电子邮件地址或 register.php 将数据放入 SQL 数据库并发送电子邮件)
  • /error/(我的错误401,403,404,406,500个html页面)
  • /include/(header.html 和 footer.html 我包括)

我在考虑只禁止 PHP 页面,让其余的。

你怎么看?

非常感谢

劳伦特

【问题讨论】:

    标签: seo robots.txt googlebot robot


    【解决方案1】:

    /css 和 /js -- CSS 和 Javascript 文件可能会被 googlebot 抓取,无论您是否在 robots.txt 中有它们。 Google 使用它们来呈现您的页面以进行站点预览。 Google 很好地要求您不要将它们放在 robots.txt 中。

    /img -- 即使在 robots.txt 中,Googlebot 也可以像 CSS 和 Javascript 一样抓取它。将您的图片放入 robots.txt 通常会阻止它们在 Google 图片搜索中被编入索引。 Google 图片搜索可能是您网站访问者的来源,因此您可能希望在那里被编入索引。

    /php -- 听起来您不希望蜘蛛访问执行操作的 url。使用 robots.txt 的好电话

    /error -- 如果你的站点设置正确,蜘蛛可能永远不会知道你的错误页面是从哪个目录提供的。他们通常会在有错误的 url 处获得服务,并且蜘蛛永远不会看到他们的实际 url。如果您重定向到它们,则情况并非如此,无论如何都不建议这样做。因此,我想说没有必要将它们放在 robots.txt 中

    【讨论】:

    • 我忘了问...我应该如何处理我的 foder /include/ 我想我也应该在 robots.txt 中禁止它吧?
    • php 文件不打算独立执行?我实际上会尝试将它们移出网络服务器目录。我通常为此“包含 ../file.php”。但如果你不能这样做,那肯定是 robots.txt。
    • @Stephen Ostermiller 重定向到错误页面是我用来避免爬虫找到执行仅在特定情况下应该访问的操作(控制器)的特定 URL 的一种方法(与已记录的在为特定用户生成的用户或链接中)。我不希望蜘蛛以这些为目标,我无法将它们移出网络服务器目录,它们太多,无法在 robots.txt 中列出,我不希望人们发现它们。所以我只是像 Laurent 一样将 /error 页面放在 robots.txt 中。我知道这是 2013 年的,但你现在有什么建议?
    • 我不建议重定向到错误页面。相反,您应该使用适当的错误代码而不进行重定向。返回 403 禁止响应而不是重定向将是理想的。如果您要重定向到错误页面,在 robots.txt 中列出这些错误页面绝对没问题。
    猜你喜欢
    • 2016-09-16
    • 1970-01-01
    • 2017-08-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-04-03
    • 2017-05-14
    • 1970-01-01
    相关资源
    最近更新 更多