【问题标题】:how to restrict the site from being indexed如何限制网站被索引
【发布时间】:2012-05-26 10:38:14
【问题描述】:

我知道这个问题被问了很多次,但我想更具体一点。

我有一个开发域并将该站点移到那里的子文件夹中。比方说:

http://www.example.com/

收件人:

http://www.example.com/backup

所以我希望子文件夹根本不被搜索引擎索引。我已将 robots.txt 与以下内容放在子文件夹中(我可以将其放在子文件夹中还是必须始终位于根目录,因为我希望根目录的内容对搜索引擎可见):

User-agent: *
Disallow: /

也许我需要替换它并将以下内容放入根目录:

User-agent: *
Disallow: /backup

另一件事是,我在某处读到某些机器人不尊重 robots.txt 文件,所以只需将 .htaccess 文件放在 /backup 文件夹中就可以了?

Order deny,allow
Deny from all

有什么想法吗?

【问题讨论】:

    标签: .htaccess search indexing robots.txt


    【解决方案1】:

    这会阻止该目录被索引:

    User-agent: *
    Disallow: /backup/
    

    此外,您的 robots.txt 文件必须放在域的根目录中,因此在这种情况下,该文件将放置在您可以通过浏览器访问 http://example.com/robots.txt 的位置

    顺便说一句,您可能需要考虑为您的开发站点设置一个子域,例如http://dev.example.com。这样做可以让您将开发内容与生产环境完全分开,并确保您的环境更加匹配。

    例如,任何指向 JavaScript 文件、CSS、图像或其他资源的绝对路径在从开发到生产的过程中都可能不一样,这可能会导致一些问题。

    有关如何配置此文件的详细信息,请参阅robotstxt.org 站点。祝你好运!

    最后也是最后一点,Google Webmaster Tools 有一个部分,您可以在其中see what is blocked by the robots.txt file

    要查看 Google 已阻止抓取哪些网址,请访问网站管理员工具的“健康”部分的已阻止网址页面。

    我强烈建议您使用此工具,因为配置不正确的 robots.txt 文件可能会对您网站的性能产生重大影响。

    【讨论】:

    • 您好,感谢您对大多数事情的评论和提醒。但是有一个问题,我是否需要在 dev 子域中添加一个 disallow: / 以使文件不被索引?我只希望它在生产中......还有来自该开发子域的重复内容呢?
    • 您好 Ilian,这取决于服务器是公共服务器还是位于防火墙后面。当然,在防火墙后面会更安全,因为您无需担心 robots 文件。虽然在重复内容问题上存在一些争议,但为了安全起见,我们尽可能避免这种情况。如果您要在 dev 上拥有 robots.txt,一个建议是动态生成它。如果您必须记住在部署站点之前对其进行编辑,那么如果 GoogleBot 击中禁止所有条目,则该手动过程可能会再次困扰您。
    • 感谢@jmort253 的广泛回复!我想知道的最后一件事......我想要一个“秘密”目录。显然,如果我把它放在 robots.txt 中,任何人都可以打开 robots.txt 并猜测它。该目录中有一个文件,所以我在其中放置了一个带有 noindex、nofollow 的元机器人,但是当我转到 Google Webmaster Tools -> Blocked URL 并尝试获取此页面时,它说它允许 Googlebot 使用。这是为什么呢?
    • Internet 上没有超过 80 端口的文件夹是真正的秘密。默默无闻的安全性根本不是秘密。您真正需要的是某种需要登录名和密码的安全性...但是,要回答您的问题,我认为您可以做相反的事情:使用Disallow: *,然后添加Allow: /path 例外。但风险是您可能会忘记允许声明。我的建议是在走这条路之前一定要自己做大量的研究。我不想听到你做的事情对你的网站有负面影响;)
    • 不,这就是我想要它的原因:) 管理员位于example.com/admin,这很容易猜到。有安全登录,激活 ssl 并且用户在 3 次尝试中被锁定 30 分钟,但我想介绍另一种“网关”,这样你就不能直接进入 /admin 并登录。所以我创建了这个文件夹并在其中放置了一个简单的文件来设置一个会话变量,该变量允许您转到 /admin 而不会被重定向。你明白我的想法吗?
    猜你喜欢
    • 2010-12-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-02-18
    • 1970-01-01
    相关资源
    最近更新 更多