如何防止 Google 将 URL 中的会话 ID 编入索引？答案

【问题标题】：How to keep Google from indexing the Session ID in the URL?如何防止 Google 将 URL 中的会话 ID 编入索引？
【发布时间】：2012-09-12 02:31:56
【问题描述】：

我的一个网站适用于不接受 cookie 的旧手机，因此它使用基于 URL 的会话 ID。

但是，Google 正在为 Session ID 编制索引，因此当我在 Google 上搜索我的网站时，所有结果都带有一个特定的 Session ID。

在大多数情况下，当客人点击该会话 ID 时，该会话 ID 已不再有效，但我至少遇到过一种情况，客人点击了来自 Google 的链接，它实际上将他们登录到其他人的帐户，这显然是一个巨大的安全漏洞。

那么，我怎样才能阻止 Google 将我的 URL 中的会话 ID 编入索引？如果有帮助，会话 ID 在 Google 的网站管理员工具中始终设置为“代表性 URL”。

【问题讨论】：

【解决方案1】：

您可以通过在您的网络根目录中放置一个 robots.txt 文件来告诉 Googlebot 和所有其他抓取工具不要抓取具有该属性的网址。

这是一个例子：

假设您要阻止的 URL 采用以下形式：

http://www.mywebsite.com/page.html?id=1234

用于阻止具有 id 属性的 URL 的 robots.txt 语法是：

User-agent: *
Disallow: /*id

您可以在http://www.robotstxt.org找到更多关于robots.txt的信息

【讨论】：

这个解决方案的问题是我所有的 URL（就 Google 而言）在 URL 中都有会话 ID，所以这会阻止来自 Googlebot 爬虫的所有页面。我需要的解决方案是让谷歌索引没有会话 ID 的 URL。这甚至可能吗？
您仍然需要相同的 robots.txt 文件来阻止爬虫跟踪具有会话 ID 属性的 URL 的入站链接。我建议向您的站点添加站点地图，并确保使用 Google 的 webwaster 工具注册的 URL 是没有会话 ID 属性的 URL。我发布的答案中的第二个链接显示了如何在 robots.txt 中指定站点地图。

【解决方案2】：

看看https://developers.google.com/search/docs/advanced/crawling/consolidate-duplicate-urls，你可以设置规范的url，google-bot会使用这个url来抓取你的网页，这也可以解决同一个网页的重复url问题。

【讨论】：