【问题标题】:Robots.txt - Disallow all pages but allow all subdirRobots.txt - 禁止所有页面但允许所有子目录
【发布时间】:2023-03-31 15:11:02
【问题描述】:

有人可以告诉我如何编写 robots.txt 文件。我需要禁止目录的所有页面,但我需要允许访问所有相关子目录。 你一定知道我不知道页面和子目录的名字……它们是自动创建的。

例如:

禁止:/dir1/dir2/all-pages.html

允许:/dir1/dir2/all-subdirectories/

(对不起我的英语)

【问题讨论】:

    标签: robots.txt subdirectory


    【解决方案1】:

    应该这样做:

    Allow: /dir1/dir2/*/
    Disallow: /dir1/dir2/
    

    这应该适用于 Google 和 Bing。它是否适用于其他爬虫是一个悬而未决的问题,因为 AllowDisallow 如何协同工作没有通用标准。但是将Allow 放在首位会给你它工作的最佳机会,因为许多爬虫使用“第一个匹配规则”。所以他们会看到Allow 并继续。

    【讨论】:

      猜你喜欢
      • 2016-09-23
      • 1970-01-01
      • 2015-04-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多