【问题标题】:How to keep Google from indexing the Session ID in the URL?如何防止 Google 将 URL 中的会话 ID 编入索引?
【发布时间】:2012-09-12 02:31:56
【问题描述】:

我的一个网站适用于不接受 cookie 的旧手机,因此它使用基于 URL 的会话 ID。

但是,Google 正在为 Session ID 编制索引,因此当我在 Google 上搜索我的网站时,所有结果都带有一个特定的 Session ID。

在大多数情况下,当客人点击该会话 ID 时,该会话 ID 已不再有效,但我至少遇到过一种情况,客人点击了来自 Google 的链接,它实际上将他们登录到其他人的帐户,这显然是一个巨大的安全漏洞。

那么,我怎样才能阻止 Google 将我的 URL 中的会话 ID 编入索引?如果有帮助,会话 ID 在 Google 的网站管理员工具中始终设置为“代表性 URL”。

【问题讨论】:

    标签: url session web-crawler sessionid


    【解决方案1】:

    您可以通过在您的网络根目录中放置一个 robots.txt 文件来告诉 Googlebot 和所有其他抓取工具不要抓取具有该属性的网址。

    这是一个例子:

    假设您要阻止的 URL 采用以下形式:

    http://www.mywebsite.com/page.html?id=1234
    

    用于阻止具有 id 属性的 URL 的 robots.txt 语法是:

    User-agent: *
    Disallow: /*id
    

    您可以在http://www.robotstxt.org找到更多关于robots.txt的信息

    http://www.seochat.com/c/a/Search-Engine-Optimization-Help/Preventing-Duplicate-Content-on-an-ECommerce-Site-from-Session-IDs/1/了解更多信息

    【讨论】:

    • 这个解决方案的问题是我所有的 URL(就 Google 而言)在 URL 中都有会话 ID,所以这会阻止来自 Googlebot 爬虫的所有页面。我需要的解决方案是让谷歌索引没有会话 ID 的 URL。这甚至可能吗?
    • 您仍然需要相同的 robots.txt 文件来阻止爬虫跟踪具有会话 ID 属性的 URL 的入站链接。我建议向您的站点添加站点地图,并确保使用 Google 的 webwaster 工具注册的 URL 是没有会话 ID 属性的 URL。我发布的答案中的第二个链接显示了如何在 robots.txt 中指定站点地图。
    【解决方案2】:

    看看https://developers.google.com/search/docs/advanced/crawling/consolidate-duplicate-urls,你可以设置规范的url,google-bot会使用这个url来抓取你的网页,这也可以解决同一个网页的重复url问题。

    【讨论】:

    • 请不要发布仅链接的答案
    猜你喜欢
    • 2013-12-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多