robots.txt 忽略所有文件夹，但抓取根目录下的所有文件

【问题标题】：robots.txt ignrore all folders but crawl all files in rootrobots.txt 忽略所有文件夹，但抓取根目录下的所有文件
【发布时间】：2010-02-09 19:41:08
【问题描述】：

我应该这样做吗

用户代理：*

不允许：/

就这么简单吗？还是不会抓取根目录中的文件？

基本上这就是我所追求的 - 抓取根目录中的所有文件/页面，但根本不抓取任何文件夹还是我必须明确指定每个文件夹..即

不允许：/admin

不允许：/this

..等等

谢谢

自然

【问题讨论】：

【解决方案1】：

您的示例将阻止根目录中的所有文件。

没有一个"standard" 的方法可以轻松地做你想做的事，而无需明确指定每个文件夹。

一些爬虫但是do support extensions 将允许您进行模式匹配。您可以禁止所有不支持模式匹配的机器人，但允许支持的机器人。

例如

# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /

【讨论】：