【问题标题】:In robots.txt only allow crawling for subdomain NOT subdirectory on shared hosting?在 robots.txt 中只允许抓取共享主机上的子域而不是子目录?
【发布时间】:2012-02-19 20:51:28
【问题描述】:

我刚刚更改了 DNS 设置,因此文件夹 /forum 现在是子域而不是子目录。如果我做一个 robots.txt 文件并说:

User-agent: *
Disallow: /forum

这会禁止抓取子目录和子域吗?

我想禁止抓取子目录,但允许抓取子域。 注意:这是在共享主机上,因此子目录和子域都可以访问。这就是我遇到这个问题的原因。

那么,我怎样才能只允许抓取子域?

【问题讨论】:

    标签: seo robots.txt web-crawler xml-sitemap


    【解决方案1】:

    如果您想停止爬行,这是正确的方法。但请注意:如果 URL 已编入索引,则不会删除。

    我更喜欢的方式是通过元标记将所有页面设置为“noindex/follow”,甚至更好的是“规范标记”,以将搜索引擎流量发送到子域 url 进入你的

    在给定的 URL 上,例如“http://www.yourdomain.com/directoryname/post-of-the-day”使用

    <link rel="canonical" href="http://directoyname.yourdomain.com/post-of-the-day" />
    

    最新的 URL 将是 SERP 中唯一的一个

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-02-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-11-29
      • 2018-04-04
      • 2012-02-06
      • 1970-01-01
      相关资源
      最近更新 更多