用于 wordpress 博客的 robots.txt（禁止 /blog/page/... 但允许抓取所有帖子的链接？）答案

【问题标题】：robots.txt for wordpress blog ( disallow /blog/page/... but allow to crawl there links to all posts?)用于 wordpress 博客的 robots.txt（禁止 /blog/page/... 但允许抓取所有帖子的链接？）
【发布时间】：2011-12-30 22:32:47
【问题描述】：

我有一个非常幼稚的问题，我找不到答案。我有一个 wordpress 博客。所有帖子都列在几个页面中，例如

mydomain.com/blog/
mydomain.com/blog/page/2/
...
mydomain.com/blog/page/N/

所以我不希望爬虫“记住”特定页面上的内容，但想让它抓取每个“/page/”上链接的所有帖子，它是否能够跟踪和抓取我不允许的页面上的链接

disallow: /blog/page/ ?

或者我如何禁止抓取特定页面上的帖子，但仍然让它抓取所有帖子？

【问题讨论】：

标签： wordpress robots.txt web-crawler

【解决方案1】：

robots.txt 无法做到这一点。您的示例 Disallow 行会告诉爬虫，“永远不要请求以 /blog/page/ 开头的 URL。

您可能想要做的是将“noindex”robots meta tag 添加到您的所有 /page/ 页面。这告诉 Google，“不要将这些页面编入索引”，但允许机器人抓取它们并获取指向各个博客条目的链接。

【讨论】：

谢谢！这正是我所需要的