Robots.txt - 如何设置规则以不索引带有参数的页面答案

【问题标题】：Robots.txt - how to set a rule to not index pages with parametersRobots.txt - 如何设置规则以不索引带有参数的页面
【发布时间】：2012-01-03 14:14:00
【问题描述】：

我们最近在网页中添加了一个新部分。本质上，它是一个允许过滤不同属性的购物产品目录 - 帮助访问者将结果缩减到他们需要的内容。

参数被传递到 URL 中，我知道 Google 会将这些页面索引为不同的页面，尽管它们本质上包含相同的内容。我知道我可以通过在 Robots.txt 文件中设置适当的规则来指定 Google（和其他搜索引擎）可以索引哪些页面。

这是在有问题的页面上：http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces 如您所见，如果您选择页面右侧的任何过滤器或选择“排序依据”选项，它会将您发送到具有相同 url + 以“&filters=”开头的字符串的新页面" 和 "&order_by="

例如：http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces/&filters=Form+Factor%3A%3A1U+Full+Rack&order_by=part_price::asc

我应该在 robots.txt 中添加什么规则来告诉搜索引擎不要索引那些冗余页面？

【问题讨论】：

标签： search-engine robots.txt

【解决方案1】：

如果要阻止 Googlebot 抓取包含“&”的网址，可以这样写：

User-agent: Googlebot
Disallow: /*&

或者，如果您不希望任何机器人执行此操作，只需将其中的 Googlebot 替换为 *。

请注意，并非所有机器人都处理通配符。 Googlebot 和 MSN bot（不管现在叫什么）都可以。我认为 Blekko 的机器人可以。我知道我的也一样。有些可能不会，因为通配符不是原始 robots.txt 规范的一部分（这从来都不是“真正的”标准）。

【讨论】：

【解决方案2】：

Google Webmaster Tools 可以让您直接告诉他们什么/如何解释您的各种参数。无需使用 robots.txt

【讨论】：

这适用于 Googlebot。但是你不能对每个搜索引擎或随机机器人都这样做。使用 robots.txt 是一种更可靠的方法，可以防止机器人抓取您不想编入索引的网页。