【问题标题】:In robots.txt only allow crawling for subdomain NOT subdirectory on shared hosting?在 robots.txt 中只允许抓取共享主机上的子域而不是子目录?
【发布时间】:2012-02-19 20:51:28
【问题描述】:
我刚刚更改了 DNS 设置,因此文件夹 /forum 现在是子域而不是子目录。如果我做一个 robots.txt 文件并说:
User-agent: *
Disallow: /forum
这会禁止抓取子目录和子域吗?
我想禁止抓取子目录,但允许抓取子域。 注意:这是在共享主机上,因此子目录和子域都可以访问。这就是我遇到这个问题的原因。
那么,我怎样才能只允许抓取子域?
【问题讨论】:
标签:
seo
robots.txt
web-crawler
xml-sitemap
【解决方案1】:
如果您想停止爬行,这是正确的方法。但请注意:如果 URL 已编入索引,则不会删除。
我更喜欢的方式是通过元标记将所有页面设置为“noindex/follow”,甚至更好的是“规范标记”,以将搜索引擎流量发送到子域 url
进入你的
在给定的 URL 上,例如“http://www.yourdomain.com/directoryname/post-of-the-day”使用
<link rel="canonical" href="http://directoyname.yourdomain.com/post-of-the-day" />
最新的 URL 将是 SERP 中唯一的一个