【问题标题】:robots.txt for wordpress blog ( disallow /blog/page/... but allow to crawl there links to all posts?)用于 wordpress 博客的 robots.txt(禁止 /blog/page/... 但允许抓取所有帖子的链接?)
【发布时间】:2011-12-30 22:32:47
【问题描述】:

我有一个非常幼稚的问题,我找不到答案。 我有一个 wordpress 博客。 所有帖子都列在几个页面中,例如

mydomain.com/blog/
mydomain.com/blog/page/2/
...
mydomain.com/blog/page/N/

所以我不希望爬虫“记住”特定页面上的内容,但想让它 抓取每个“/page/”上链接的所有帖子,它是否能够跟踪和抓取我不允许的页面上的链接

disallow: /blog/page/ ?

或者我如何禁止抓取特定页面上的帖子,但仍然让它抓取所有帖子?

【问题讨论】:

    标签: wordpress robots.txt web-crawler


    【解决方案1】:

    robots.txt 无法做到这一点。您的示例 Disallow 行会告诉爬虫,“永远不要请求以 /blog/page/ 开头的 URL。

    您可能想要做的是将“noindex”robots meta tag 添加到您的所有 /page/ 页面。这告诉 Google,“不要将这些页面编入索引”,但允许机器人抓取它们并获取指向各个博客条目的链接。

    【讨论】:

    • 谢谢!这正是我所需要的
    猜你喜欢
    • 2023-03-31
    • 2016-09-23
    • 1970-01-01
    • 2016-08-01
    • 1970-01-01
    • 2012-04-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多