【问题标题】:Robots.txt - how to set a rule to not index pages with parametersRobots.txt - 如何设置规则以不索引带有参数的页面
【发布时间】:2012-01-03 14:14:00
【问题描述】:

我们最近在网页中添加了一个新部分。本质上,它是一个允许过滤不同属性的购物产品目录 - 帮助访问者将结果缩减到他们需要的内容。

参数被传递到 URL 中,我知道 Google 会将这些页面索引为不同的页面,尽管它们本质上包含相同的内容。我知道我可以通过在 Robots.txt 文件中设置适当的规则来指定 Google(和其他搜索引擎)可以索引哪些页面。

这是在有问题的页面上:http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces 如您所见,如果您选择页面右侧的任何过滤器或选择“排序依据”选项,它会将您发送到具有相同 url + 以“&filters=”开头的字符串的新页面" 和 "&order_by="

例如:http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces/&filters=Form+Factor%3A%3A1U+Full+Rack&order_by=part_price::asc

我应该在 robots.txt 中添加什么规则来告诉搜索引擎不要索引那些冗余页面?

【问题讨论】:

    标签: search-engine robots.txt


    【解决方案1】:

    如果要阻止 Googlebot 抓取包含“&”的网址,可以这样写:

    User-agent: Googlebot
    Disallow: /*&
    

    或者,如果您不希望任何机器人执行此操作,只需将其中的 Googlebot 替换为 *

    请注意,并非所有机器人都处理通配符。 Googlebot 和 MSN bot(不管现在叫什么)都可以。我认为 Blekko 的机器人可以。我知道我的也一样。有些可能不会,因为通配符不是原始 robots.txt 规范的一部分(这从来都不是“真正的”标准)。

    【讨论】:

      【解决方案2】:

      Google Webmaster Tools 可以让您直接告诉他们什么/如何解释您的各种参数。无需使用 robots.txt

      【讨论】:

      • 这适用于 Googlebot。但是你不能对每个搜索引擎或随机机器人都这样做。使用 robots.txt 是一种更可靠的方法,可以防止机器人抓取您不想编入索引的网页。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-08-23
      • 1970-01-01
      • 1970-01-01
      • 2023-03-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多