【发布时间】:2011-09-30 10:24:03
【问题描述】:
谁能解释一下以下场景的正确robots.txt 命令。
我想允许访问:
/directory/subdirectory/..
但我也想限制对/directory/ 的访问,尽管有上述例外。
【问题讨论】:
标签: robots.txt
谁能解释一下以下场景的正确robots.txt 命令。
我想允许访问:
/directory/subdirectory/..
但我也想限制对/directory/ 的访问,尽管有上述例外。
【问题讨论】:
标签: robots.txt
请注意,没有真正的官方标准,任何网络爬虫都可能很乐意忽略您的 robots.txt
根据a Google groups post,以下至少适用于GoogleBot;
User-agent: Googlebot
Disallow: /directory/
Allow: /directory/subdirectory/
【讨论】:
Allow: /directory/*/ 有效。
我建议使用 Google 的机器人测试仪。利用谷歌网站管理员工具 - https://support.google.com/webmasters/answer/6062598?hl=en
您可以直接在该工具中编辑和测试 URL,此外,您还可以获得大量其他工具。
【讨论】:
如果这些是真正的目录,那么接受的答案可能是您的最佳选择。但是,如果您正在编写应用程序并且目录是动态生成的路径(也称为上下文、路由等),那么您可能希望使用元标记而不是在 robots.txt 中定义它。这使您不必担心不同的浏览器可能如何解释/优先考虑对子目录路径的访问。
你可以在代码中尝试这样的事情:
if is_parent_directory_path
<meta name="robots" content="noindex, nofollow">
end
【讨论】: