【发布时间】:2010-02-09 19:41:08
【问题描述】:
我应该这样做吗
用户代理:*
不允许:/
就这么简单吗? 还是不会抓取根目录中的文件?
基本上这就是我所追求的 - 抓取根目录中的所有文件/页面,但根本不抓取任何文件夹 还是我必须明确指定每个文件夹..即
不允许:/admin
不允许:/this
..等等
谢谢
自然
【问题讨论】:
标签: apache robots.txt
我应该这样做吗
用户代理:*
不允许:/
就这么简单吗? 还是不会抓取根目录中的文件?
基本上这就是我所追求的 - 抓取根目录中的所有文件/页面,但根本不抓取任何文件夹 还是我必须明确指定每个文件夹..即
不允许:/admin
不允许:/this
..等等
谢谢
自然
【问题讨论】:
标签: apache robots.txt
您的示例将阻止根目录中的所有文件。
没有一个"standard" 的方法可以轻松地做你想做的事,而无需明确指定每个文件夹。
一些爬虫但是do support extensions 将允许您进行模式匹配。您可以禁止所有不支持模式匹配的机器人,但允许支持的机器人。
例如
# disallow all robots
User-agent: *
Disallow: /
# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /
【讨论】: