【问题标题】:robots.txt ignrore all folders but crawl all files in rootrobots.txt 忽略所有文件夹,但抓取根目录下的所有文件
【发布时间】:2010-02-09 19:41:08
【问题描述】:

我应该这样做吗

用户代理:*

不允许:/

就这么简单吗? 还是不会抓取根目录中的文件?

基本上这就是我所追求的 - 抓取根目录中的所有文件/页面,但根本不抓取任何文件夹 还是我必须明确指定每个文件夹..即

不允许:/admin

不允许:/this

..等等

谢谢

自然

【问题讨论】:

    标签: apache robots.txt


    【解决方案1】:

    您的示例将阻止根目录中的所有文件。

    没有一个"standard" 的方法可以轻松地做你想做的事,而无需明确指定每个文件夹。

    一些爬虫但是do support extensions 将允许您进行模式匹配。您可以禁止所有不支持模式匹配的机器人,但允许支持的机器人。

    例如

    # disallow all robots
    User-agent: *
    Disallow: /
    
    # let google read html and files
    User-agent: Googlebot
    Allow: /*.html
    Allow: /*.pdf
    Disallow: /
    

    【讨论】:

    • 实际上最终为每个文件夹明确地做了它.. 不过谢谢 - 不是因为它不起作用
    猜你喜欢
    • 2015-12-25
    • 1970-01-01
    • 2020-03-14
    • 2021-12-20
    • 2016-09-23
    • 2017-01-08
    • 2018-03-07
    • 2013-12-31
    • 2013-09-26
    相关资源
    最近更新 更多