【问题标题】:Prevent indexing a domain in search engines like Google and Bing防止在 Google 和 Bing 等搜索引擎中为域编制索引
【发布时间】:2015-10-22 13:35:13
【问题描述】:
我有一个对所有用户公开的域(例如 domain.com),并且我有一个通用域(此处为 secretdomain.com)的秘密子域(例如 site1.secretdomain.com),仅供管理员使用网站。
我不希望 Google 或其他搜索引擎索引秘密域或其子域。你对此有什么想法吗?我认为 robots.txt 不起作用,因为它会对所有域进行更改。
【问题讨论】:
标签:
.htaccess
search-engine
robots.txt
【解决方案1】:
一个不太简单的解决方案是删除,或发出 NO-Follow 指令对子域页面的任何引用以及 robots.txt 中的其他必要更改。
另一个更昂贵但更具体但务实的方法是查看 CAPTCHA 或 Google's ReCaptcha。
从理论上讲,如果没有太多研究,我想解决问题的典型方法是根据请求提供独特的加密/某种形式的挑战(计算上昂贵的问题)并使用解决方案来验证会话来自用户。
即使是最先进的爬虫也只能使用有限的 Javascript 执行预算;并决定在用尽后转到其他页面。找到一个合适的挑战,优化页面设计以考虑加载延迟,并且您的子域对所有人开放,但对机器人不开放。