如何从 robots.txt 文件中排除 URL

【问题标题】：How to exclude URLs from robots.txt file如何从 robots.txt 文件中排除 URL
【发布时间】：2021-02-12 19:18:35
【问题描述】：

我有很多包含文档（内容）的中英文网址。两个网址内容相同，所以我想禁止来自robots.txt的中文网址。

在我的网址的 sn-p 下方：

   https://www.example.com/zh/docs/UBX-18006379
   https://www.example.com/zh/ubx-viewer/view/cB-2254-12(fw_obs421_rd_v5.3.2).bin

我对以下通配符是否正确：

     1- Disallow: /zh/docs/*
     2- Disallow: /zh/ubx-viewer/*

谁能帮帮我？以上是否正确使用？提前致谢

【问题讨论】：

【解决方案1】：

不，这是不正确的。机器人不支持正则表达式。

另请注意，不支持通配符和正则表达式 User-agent 或 Disallow 行。用户代理中的“” field 是一个特殊的值，意思是“任何机器人”。具体来说，您不能有诸如“用户代理：bot”、“禁止：/tmp/”或“禁止： *.gif"。

但是请记住，robots.txt 可以被机器人忽略。因此请注意，如果这些目录是公开可用的，任何人仍然可以访问这些目录，并且您不应在其中存储敏感信息。所以在你的情况下，如果你想排除这些目录：

User-agent: *
Disallow: /zh/docs/
Disallow: /zh/ubx-viewer/

【讨论】：