robots.txt：如何禁止动态文件夹的子文件夹答案

【问题标题】：robots.txt : how to disallow subfolders of dynamic folderrobots.txt：如何禁止动态文件夹的子文件夹
【发布时间】：2013-06-12 15:04:44
【问题描述】：

我有这样的网址： /products/:product_id/deals/new /products/:product_id/deals/index

我想在我的 robots.txt 文件中禁止“交易”文件夹。

[编辑]我想禁止 Google、Yahoo 和 Bing Bots 使用此文件夹。有谁知道这些机器人是否支持通配符，因此会支持以下规则吗？

Disallow: /products/*/deals

另外...你有关于 robots.txt 规则的非常好的教程吗？因为我没能找到一个“真正”好的我可以使用一个......

最后一个问题： robots.txt 是处理此问题的最佳方法吗？还是我应该更好地使用“noindex”元？

谢谢大家！ :)

【问题讨论】：

原始 robots.txt 规范不支持通配符（如您示例中的 *）。但是，一些解析器支持它们（但我猜它们在实现上有所不同）。
哇，太糟糕了 :( 好吧！我想我必须使用元标记，对吧？:)
是的。或者，如果您只对主要搜索引擎感兴趣，您可以查看他们的文档并查看他们是否/如何支持 robots.txt 中的通配符（例如，Google 似乎支持它们）。您可以更新您的问题以包含您感兴趣的机器人/搜索引擎。
感谢您的建议！我会看一下文档。 :)

标签： seo robots.txt noindex

【解决方案1】：

是的，所有主要搜索引擎都支持基本通配符 *，您的解决方案将禁止您的 deals 目录。

了解 robots.txt 的最佳地点确实是 Google Developer page。它提供了大量的例子，说明什么有效，什么无效。例如，很多人不知道 robots.txt 文件是特定于协议的。因此，如果您想阻止 https 连接上的页面，您需要确保您在 https://yoursite.com/robots.txt 有一个 robots.txt

您还可以在通过Google Webmaster Tools 应用新的 robots.txt 文件之前对其进行测试。基本上你可以在部署之前通过搜索引擎验证它是否真的可以工作。

关于使用 robots.txt 阻止某些内容或只是向页面添加 noindex，我更倾向于在大多数情况下使用 noindex，除非我知道我不希望搜索引擎抓取我网站的该部分完全没有。

有一些取舍。当您完全阻止搜索引擎时，您可以节省一些“抓取预算”。因此，搜索引擎会抓取其他页面，然后在您不希望他们访问的页面上“浪费”他们的时间。但是，这些 URL 仍然可以出现在搜索结果中。

如果您绝对不希望这些页面有任何搜索推荐流量，最好使用 noindex 指令。此外，如果您经常链接到交易页面，noindex 不仅会将其从搜索结果中删除，而且任何链接值/PageRank 都可以流经这些页面并可以相应地进行计算。如果你阻止它们被抓取，那就是一个黑洞。

【讨论】：

多么奇妙而美妙的答案！正是我需要的解释！非常感谢！！
没问题，我的荣幸:)

【解决方案2】：

如果你不确定你在 robots.txt 中的语法是否正确，你可以在https://www.google.com/webmasters 上测试一下（看看有没有错误）。此外，您可以输入页面 URL，该工具会根据您的 robots.txt 告诉您是否应该阻止它。

【讨论】：