在 robots.txt 中只允许抓取共享主机上的子域而不是子目录？答案

【问题标题】：In robots.txt only allow crawling for subdomain NOT subdirectory on shared hosting?在 robots.txt 中只允许抓取共享主机上的子域而不是子目录？
【发布时间】：2012-02-19 20:51:28
【问题描述】：

我刚刚更改了 DNS 设置，因此文件夹 /forum 现在是子域而不是子目录。如果我做一个 robots.txt 文件并说：

User-agent: *
Disallow: /forum

这会禁止抓取子目录和子域吗？

我想禁止抓取子目录，但允许抓取子域。 注意：这是在共享主机上，因此子目录和子域都可以访问。这就是我遇到这个问题的原因。

那么，我怎样才能只允许抓取子域？

【问题讨论】：

标签： seo robots.txt web-crawler xml-sitemap

【解决方案1】：

如果您想停止爬行，这是正确的方法。但请注意：如果 URL 已编入索引，则不会删除。

我更喜欢的方式是通过元标记将所有页面设置为“noindex/follow”，甚至更好的是“规范标记”，以将搜索引擎流量发送到子域 url 进入你的

在给定的 URL 上，例如“http://www.yourdomain.com/directoryname/post-of-the-day”使用

<link rel="canonical" href="http://directoyname.yourdomain.com/post-of-the-day" />

最新的 URL 将是 SERP 中唯一的一个

【讨论】：