【问题标题】:How to exclude URLs from robots.txt file如何从 robots.txt 文件中排除 URL
【发布时间】:2021-02-12 19:18:35
【问题描述】:

我有很多包含文档(内容)的中英文网址。两个网址内容相同,所以我想禁止来自robots.txt的中文网址。

在我的网址的 sn-p 下方:

   https://www.example.com/zh/docs/UBX-18006379
   https://www.example.com/zh/ubx-viewer/view/cB-2254-12(fw_obs421_rd_v5.3.2).bin

我对以下通配符是否正确:

     1- Disallow: /zh/docs/*
     2- Disallow: /zh/ubx-viewer/*

谁能帮帮我?以上是否正确使用? 提前致谢

【问题讨论】:

    标签: robots.txt


    【解决方案1】:

    不,这是不正确的。机器人不支持正则表达式。

    根据https://www.robotstxt.org/robotstxt.html

    另请注意,不支持通配符和正则表达式 User-agent 或 Disallow 行。用户代理中的“” field 是一个特殊的值,意思是“任何机器人”。具体来说,您不能 有诸如“用户代理:bot”、“禁止:/tmp/”或“禁止: *.gif"。

    但是请记住,robots.txt 可以被机器人忽略。因此请注意,如果这些目录是公开可用的,任何人仍然可以访问这些目录,并且您不应在其中存储敏感信息。 所以在你的情况下,如果你想排除这些目录:

    User-agent: *
    Disallow: /zh/docs/
    Disallow: /zh/ubx-viewer/
    

    【讨论】:

      猜你喜欢
      • 2012-04-25
      • 2015-06-04
      • 2012-09-06
      • 2019-05-20
      • 1970-01-01
      • 2019-06-05
      • 2017-03-22
      • 2017-01-16
      • 1970-01-01
      相关资源
      最近更新 更多