【问题标题】:How to prevent a URL while indexing in to google?如何在索引到谷歌时防止 URL?
【发布时间】:2016-08-18 08:49:47
【问题描述】:

我有一个开发服务器,其中放置了 100 个网站(文件夹),但每个文件夹都指向另一个域,但我仍然可以使用服务器 IP 或域访问该文件夹吗?如何停止索引由服务器的 ip 或域打开的 url?

例如:

服务器是:myserver.com 网站(文件夹):我的网站

我可以像 myserver.com/mywebsite 一样访问它

我有另一个名为 newwebsite.com 的域并指向 myserver.com 中存在的 mywebsite 文件夹,然后我可以使用 newwebsite.com 访问同一个文件夹,我需要停止索引 myserver.com/mywebsite .. 任何人都可以帮助我吗?提前致谢。

【问题讨论】:

    标签: indexing seo robots.txt


    【解决方案1】:

    在您添加到 google 存储库的每个网站中,您都可以添加一个名为 Robots.txt 的文件。此文件包含您关于以下各项的所有规则:

    1. 哪些页面和 URL 将被编入索引并被关注。
    2. 哪些 URL 作为隐藏点拒绝爬虫访问。
    3. 以及您可以在此documentation 中了解的所有其他规则。

    例如,您可以像这样在每个域(或子域)中阻止您喜欢的 URL:

    User-agent: *
    Disallow: /~joe/junk.html
    Disallow: /~joe/foo.html
    

    不记得 robots.txt 文件必须放在每个网站的根目录下才能被爬虫检测到。 问候

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-04-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多