Google 正在抓取服务器文件答案

【问题标题】：Google is crawling servers filesGoogle 正在抓取服务器文件
【发布时间】：2015-01-04 02:44:21
【问题描述】：

当我使用以下搜索时：

site:blog.myblog.com

然后在结果页面中是showing several inappropriate URLs and that on HTTPS。

例如，不合适的 URls 是：

https://blog.myblog.com/my-website-on-same-server.com

https://blog.myblog.com/xampp/index.php

Why it is indexing like this.

如何解决这个问题？这确实阻碍了此博客的 SEO 工作。

我在这台服务器上检查了另一个网站，结果是一样的，不合适的 URL 和 HTTPS 上的。

请指导。

它在 CentOS 和 xampp 上。

【问题讨论】：

标签： php linux wordpress apache centos

【解决方案1】：

使用 robots.txt 阻止您网站的某些部分进行抓取。

http://www.robotstxt.org/

另一种解决方案是使用密码保护您不想编入索引的目录。大多数爬虫只是忽略这些目录，因为它们无法访问它们。

【讨论】：

【解决方案2】：

您需要关闭目录索引 - 这很可能是 Google 实现目标的方式。在此处阅读有关如何执行此操作的信息：https://wiki.apache.org/httpd/DirectoryListings 并删除现有索引，创建一个 robots.txt 文件并禁止您不想抓取的路径（这是如何执行此操作http://www.robotstxt.org/）

【讨论】：

非常感谢您的回答。请问robots.txt是如何在我的服务器上创建的，以及在我的服务器上使用代码行放置这个文件的位置。
不客气。该文件通常放在根目录中。 robotstxt.com 网站上的更多信息 :)