【问题标题】:Allow SE indexing on index.html only仅允许对 index.html 进行 SE 索引
【发布时间】:2010-02-02 14:11:55
【问题描述】:

阻止 * 并且只允许主要搜索引擎仅索引网站的索引页面的最短方法是什么?

User-agent:  *
Disallow: /

User-agent: Googlebot
Disallow: /
Allow: index.html

User-agent: Slurp
Disallow: /
Allow: index.html

User-agent: msn
Disallow: /
Allow: index.html

这行得通吗?

【问题讨论】:

    标签: seo search-engine web-crawler robots.txt


    【解决方案1】:

    是的,那将是最短的方法。不一定正确。

    并非所有机器人都支持Allow 指令。当User-agent: * 部分和User-agent: Specific-bot 部分同时适用时,一些机器人对如何解释 robots.txt 感到困惑。

    为了确保它能够正常工作,您需要执行以下操作:

    用户代理:Googlebot 禁止:/file1 禁止:/file2 禁止:/file3 # 等等,直到你阻止除了 index.html 之外的所有路径 用户代理:Slurp 禁止:/file1 禁止:/file2 禁止:/file3 # 等等,直到你阻止除了 index.html 之外的所有路径 用户代理:msn 禁止:/file1 禁止:/file2 禁止:/file3 # 等等,直到你阻止除了 index.html 之外的所有路径 用户代理: * 不允许: /

    如果您不想做所有这些工作,那么最好的办法是测试您感兴趣的每个引擎,看看它们是否会接受您建议的 robots.txt 文件。如果没有,请尝试更长的版本。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-02-16
      • 2018-09-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-11-22
      • 1970-01-01
      相关资源
      最近更新 更多