【问题标题】:Does a crawler like googlebot 'see' my rewritten urls?像 googlebot 这样的爬虫会“看到”我重写的网址吗?
【发布时间】:2013-08-09 13:00:40
【问题描述】:

我正在使用 htaccess 重写 www.mysite.com/index.php?id=# 并将其重定向到友好的 URL,例如 www.mysite.com/news。所以所有的新闻文章都会写成www.mysite.com/news/article1等。

现在,我将阻止服务器上不需要使用 robots.txt 编制索引的所有目录。由于我使用的是 cms,因此这些目录是 /core、/managers、/connectors 等。但由于www.mysite.com/news 目录实际上并不存在,而是用 htaccess 重写,因此会阻塞关闭所有目​​录,如 /core 等。仍然允许爬虫索引我的网站?

所以基本上我想知道的是:爬虫是否会在重写后看到我的网站网址?还是它仍然需要访问我的 cms 的其他目录,例如 /core 才能索引我的页面?

【问题讨论】:

    标签: php html .htaccess web-crawler googlebot


    【解决方案1】:

    不,重写的 URL 只是一个内部映射过程。它仅由您的 Web 服务器用于确定如何处理它接收到的用户友好 URL。

    与浏览器地址栏中的 URL 保持不变的方式相同,该过程对客户端是不可见的,无论是 Web 浏览器还是机器人。


    不要将 URL 重写与重定向相混淆。在后一种情况下,客户端请求会收到“301 重定向”响应,其中包含实际资源所在的 URL。这会导致客户端向重定向的 URL 发出第二个请求。然后根据定义,客户端会知道这个过程。

    【讨论】:

    • 但是地址栏中的 url 发生了变化(我也在重定向)。
    • 重定向是一个完全不同的故事,根据定义,客户会意识到这一点。
    • 我用重定向部分更新了我的问题。那么,鉴于我屏蔽了不在可公开访问的 url 中的目录,您认为 google 将能够为我的网站编制索引吗?
    • 我会说是的,即使我在这个主题上没有实际经验。但是this FAQ 说他们会(即使是在稍微不同的环境中)。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-10-15
    • 2012-02-09
    • 1970-01-01
    • 2014-01-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多