【问题标题】:Google is crawling servers filesGoogle 正在抓取服务器文件
【发布时间】:2015-01-04 02:44:21
【问题描述】:

当我使用以下搜索时:

site:blog.myblog.com

然后在结果页面中是showing several inappropriate URLs and that on HTTPS

例如,不合适的 URls 是:

https://blog.myblog.com/my-website-on-same-server.com

https://blog.myblog.com/xampp/index.php

Why it is indexing like this.

如何解决这个问题?这确实阻碍了此博客的 SEO 工作。

我在这台服务器上检查了另一个网站,结果是一样的,不合适的 URL 和 HTTPS 上的。

请指导。

它在 CentOS 和 xampp 上。

【问题讨论】:

    标签: php linux wordpress apache centos


    【解决方案1】:

    使用 robots.txt 阻止您网站的某些部分进行抓取。

    http://www.robotstxt.org/

    另一种解决方案是使用密码保护您不想编入索引的目录。大多数爬虫只是忽略这些目录,因为它们无法访问它们。

    【讨论】:

      【解决方案2】:

      您需要关闭目录索引 - 这很可能是 Google 实现目标的方式。在此处阅读有关如何执行此操作的信息:https://wiki.apache.org/httpd/DirectoryListings 并删除现有索引,创建一个 robots.txt 文件并禁止您不想抓取的路径(这是如何执行此操作http://www.robotstxt.org/

      【讨论】:

      • 非常感谢您的回答。请问robots.txt是如何在我的服务器上创建的,以及在我的服务器上使用代码行放置这个文件的位置。
      • 不客气。该文件通常放在根目录中。 robotstxt.com 网站上的更多信息 :)
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-08-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多