【问题标题】:Web spiders and HTTP auth网络蜘蛛和 HTTP 身份验证
【发布时间】:2011-04-21 09:36:07
【问题描述】:

我有一个需要通过 SSL 进行 HTTP 身份验证的管理应用程序。我已在网站的 robots.txt 文件中包含管理应用的路径。

我宁愿在任何地方都看不到管理应用程序的路径。单独的 HTTP 身份验证会阻止网络蜘蛛索引页面吗?

【问题讨论】:

    标签: seo search-engine web-crawler


    【解决方案1】:

    如果您使用合适的 4xx(但不是 HTTP 410 或 HTTP 404)HTTP 状态代码进行响应,那么是的,HTTP 身份验证将阻止 google 将此页面编入索引。

    见:http://www.google.com/support/webmasters/bin/answer.py?answer=40132

    另外你可以发送

    X-Robots-Tag: noindex
    

    HTTP 标头以确保更多信息。

    见:http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html

    哦,是的,在 robots.txt 中包含 URL 使得 google 更有可能为该页面编制索引...... robots.txt 是一个抓取指令,它基本上说:不要获取该 url 的内容。所以谷歌不知道它是一个 HTTP 身份验证,但由于爬行对于索引是可选的(是的,真的),所以 url 可能(这是一个非常大的可能)无论如何都会在谷歌搜索结果中购物。我在这里更详细地解释了 google(bot) 漏斗pages not indexed by Google

    正确的 HTTP 状态标头和 x-robot-tag 更适合确保 url 不会显示在 google 中(但如果 robots.txt 指令保留在原位,则两者都无用)

    【讨论】:

    • 谢谢。顺便说一句,我的意思是我在 robots.txt 中包含“拒绝”。
    猜你喜欢
    • 2017-02-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-10-18
    • 2013-08-24
    • 1970-01-01
    相关资源
    最近更新 更多