网络蜘蛛和 HTTP 身份验证答案

【问题标题】：Web spiders and HTTP auth网络蜘蛛和 HTTP 身份验证
【发布时间】：2011-04-21 09:36:07
【问题描述】：

我有一个需要通过 SSL 进行 HTTP 身份验证的管理应用程序。我已在网站的 robots.txt 文件中包含管理应用的路径。

我宁愿在任何地方都看不到管理应用程序的路径。单独的 HTTP 身份验证会阻止网络蜘蛛索引页面吗？

【问题讨论】：

标签： seo search-engine web-crawler

【解决方案1】：

如果您使用合适的 4xx（但不是 HTTP 410 或 HTTP 404）HTTP 状态代码进行响应，那么是的，HTTP 身份验证将阻止 google 将此页面编入索引。

见：http://www.google.com/support/webmasters/bin/answer.py?answer=40132

另外你可以发送

X-Robots-Tag: noindex

哦，是的，在 robots.txt 中包含 URL 使得 google 更有可能为该页面编制索引...... robots.txt 是一个抓取指令，它基本上说：不要获取该 url 的内容。所以谷歌不知道它是一个 HTTP 身份验证，但由于爬行对于索引是可选的（是的，真的），所以 url 可能（这是一个非常大的可能）无论如何都会在谷歌搜索结果中购物。我在这里更详细地解释了 google(bot) 漏斗pages not indexed by Google

正确的 HTTP 状态标头和 x-robot-tag 更适合确保 url 不会显示在 google 中（但如果 robots.txt 指令保留在原位，则两者都无用）

【讨论】：

谢谢。顺便说一句，我的意思是我在 robots.txt 中包含“拒绝”。