【发布时间】:2016-07-27 11:28:48
【问题描述】:
我想允许爬虫访问我域的根目录(即 index.html 文件),但不能更深入(即没有子目录)。我不想在 robots.txt 文件中单独列出和拒绝每个子目录。目前我有以下内容,但我认为它会阻止所有内容,包括域根目录中的内容。
User-agent: *
Allow: /$
Disallow: /
如何编写我的 robots.txt 来完成我正在尝试的目标?
提前致谢!
【问题讨论】:
-
这不能以“机器人通用”的方式完成。您是否有权访问 .htaccess 或类似文件?
-
我确实可以访问 .htaccess。基本上,我的目标是使用 robots.txt、元标记和元 http 标头,尽我所能防止除主页(即 index.html)以外的任何内容出现在搜索引擎结果中。
标签: robots.txt