【问题标题】:robots.txt : how to disallow subfolders of dynamic folderrobots.txt:如何禁止动态文件夹的子文件夹
【发布时间】:2013-06-12 15:04:44
【问题描述】:

我有这样的网址: /products/:product_id/deals/new /products/:product_id/deals/index

我想在我的 robots.txt 文件中禁止“交易”文件夹。

[编辑]我想禁止 Google、Yahoo 和 Bing Bots 使用此文件夹。有谁知道这些机器人是否支持通配符,因此会支持以下规则吗?

Disallow: /products/*/deals

另外...你有关于 robots.txt 规则的非常好的教程吗?因为我没能找到一个“真正”好的我可以使用一个......

最后一个问题: robots.txt 是处理此问题的最佳方法吗?还是我应该更好地使用“noindex”元?

谢谢大家! :)

【问题讨论】:

  • 原始 robots.txt 规范不支持通配符(如您示例中的 *)。但是,一些解析器支持它们(但我猜它们在实现上有所不同)。
  • 哇,太糟糕了 :( 好吧!我想我必须使用元标记,对吧?:)
  • 是的。或者,如果您只对主要搜索引擎感兴趣,您可以查看他们的文档并查看他们是否/如何支持 robots.txt 中的通配符(例如,Google 似乎支持它们)。您可以更新您的问题以包含您感兴趣的机器人/搜索引擎。
  • 感谢您的建议!我会看一下文档。 :)

标签: seo robots.txt noindex


【解决方案1】:

是的,所有主要搜索引擎都支持基本通配符 *,您的解决方案将禁止您的 deals 目录。

了解 robots.txt 的最佳地点确实是 Google Developer page。它提供了大量的例子,说明什么有效,什么无效。例如,很多人不知道 robots.txt 文件是特定于协议的。因此,如果您想阻止 https 连接上的页面,您需要确保您在 https://yoursite.com/robots.txt 有一个 robots.txt

您还可以在通过Google Webmaster Tools 应用新的 robots.txt 文件之前对其进行测试。基本上你可以在部署之前通过搜索引擎验证它是否真的可以工作。

关于使用 robots.txt 阻止某些内容或只是向页面添加 noindex,我更倾向于在大多数情况下使用 noindex,除非我知道我不希望搜索引擎抓取我网站的该部分完全没有。

有一些取舍。当您完全阻止搜索引擎时,您可以节省一些“抓取预算”。因此,搜索引擎会抓取其他页面,然后在您不希望他们访问的页面上“浪费”他们的时间。但是,这些 URL 仍然可以出现在搜索结果中。

如果您绝对不希望这些页面有任何搜索推荐流量,最好使用 noindex 指令。此外,如果您经常链接到交易页面,noindex 不仅会将其从搜索结果中删除,而且任何链接值/PageRank 都可以流经这些页面并可以相应地进行计算。如果你阻止它们被抓取,那就是一个黑洞。

【讨论】:

  • 多么奇妙而美妙的答案!正是我需要的解释!非常感谢!!
  • 没问题,我的荣幸:)
【解决方案2】:

如果你不确定你在 robots.txt 中的语法是否正确,你可以在https://www.google.com/webmasters 上测试一下(看看有没有错误)。此外,您可以输入页面 URL,该工具会根据您的 robots.txt 告诉您是否应该阻止它。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-08-10
    • 2013-01-26
    • 1970-01-01
    • 2014-04-15
    • 1970-01-01
    • 2016-09-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多