【发布时间】:2011-04-21 09:36:07
【问题描述】:
我有一个需要通过 SSL 进行 HTTP 身份验证的管理应用程序。我已在网站的 robots.txt 文件中包含管理应用的路径。
我宁愿在任何地方都看不到管理应用程序的路径。单独的 HTTP 身份验证会阻止网络蜘蛛索引页面吗?
【问题讨论】:
标签: seo search-engine web-crawler
我有一个需要通过 SSL 进行 HTTP 身份验证的管理应用程序。我已在网站的 robots.txt 文件中包含管理应用的路径。
我宁愿在任何地方都看不到管理应用程序的路径。单独的 HTTP 身份验证会阻止网络蜘蛛索引页面吗?
【问题讨论】:
标签: seo search-engine web-crawler
如果您使用合适的 4xx(但不是 HTTP 410 或 HTTP 404)HTTP 状态代码进行响应,那么是的,HTTP 身份验证将阻止 google 将此页面编入索引。
见:http://www.google.com/support/webmasters/bin/answer.py?answer=40132
另外你可以发送
X-Robots-Tag: noindex
HTTP 标头以确保更多信息。
见:http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html
哦,是的,在 robots.txt 中包含 URL 使得 google 更有可能为该页面编制索引...... robots.txt 是一个抓取指令,它基本上说:不要获取该 url 的内容。所以谷歌不知道它是一个 HTTP 身份验证,但由于爬行对于索引是可选的(是的,真的),所以 url 可能(这是一个非常大的可能)无论如何都会在谷歌搜索结果中购物。我在这里更详细地解释了 google(bot) 漏斗pages not indexed by Google
正确的 HTTP 状态标头和 x-robot-tag 更适合确保 url 不会显示在 google 中(但如果 robots.txt 指令保留在原位,则两者都无用)
【讨论】: