【问题标题】:PHPBB Robots.txt Rules?PHPBB Robots.txt 规则?
【发布时间】:2016-11-22 02:17:36
【问题描述】:

我目前正在编辑我的 Robots.txt,如下所示:

User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml

我想知道如何正确地做一些事情。

1) 这会正确阻止搜索引擎访问论坛区域吗?

Disallow: /viewforum.php?f=146

我想要一个对搜索引擎隐藏的区域,但论坛的其他区域完全可以正常阅读。

2) 您如何阻止对内部 PHPBB 文件夹的访问,并将搜索引擎排除在管理员之外?这些规则正确吗?

Disallow: /adm/*
Disallow: /download/*

3) php 文件的规则是否正常工作?

Disallow: /ucp.php

还有什么我应该知道或做的吗?

【问题讨论】:

  • 添加该规则可能不会让搜索引擎隐藏它,他们通常不遵守robots.txt 文件
  • 好的,但是上面的规则正确吗?
  • @cmorrissey:哪个(众所周知?)搜索引擎违反了 robots.txt?

标签: php robots.txt forum phpbb


【解决方案1】:

线

Disallow: /viewforum.php?f=146

不允许抓取路径/viewforum.php?f=146开头的网址。

因此,不允许抓取此类 URL:

  • http://example.com/viewforum.php?f=146
  • http://example.com/viewforum.php?f=1461
  • http://example.com/viewforum.php?f=146a
  • http://example.com/viewforum.php?f=146/foo
  • http://example.com/viewforum.php?f=146&bar

(当然,/ucp.php/adm//download/ 的工作方式相同。请注意,这意味着不需要附加的 *,除非它实际上是 URL 的一部分。)

所以如果论坛概述在http://example.com/viewforum.php?f=146,它将被阻止。但是,请注意,可能会另外从不同的 URL 访问同一页面,例如类似:http://example.com/viewforum.php?someOtherParameter&f=146

另请注意,这不一定会阻止在该论坛区域中抓取论坛主题(因为它们通常不以该路径开头)。虽然符合标准的机器人不会抓取此论坛区域页面,但它们可能会从其他地方找到指向主题的链接。

【讨论】:

  • 谢谢这个信息真的很有用,那你怎么能只屏蔽论坛的146区,但仍然允许1461、146a等,这可能吗?
  • 基本上我正在考虑在我拥有的论坛中添加一个 like4like 部分,我知道像谷歌这样的公司可能不喜欢这种类型的东西,因为它可能被认为是黑帽,所以我只想要搜索引擎忽略它,以防它让谷歌等不喜欢我的网站。
  • @zeddex:使用原始 robots.txt 规范,这是不可能的。但是许多消费者支持 robots.txt 的附加功能,包括 Google:他们将 $ 字符解释为结束 (see documentation),因此 Disallow: /viewforum.php?f=146$ 可能会做你想做的事。但是没有相同解释的机器人会按字面意思解释,所以它们将被允许爬取/viewforum.php?f=146(因为只有/viewforum.php?f=146$是不允许的)。
  • 好的,谢谢你的信息,你知道 like4like 的事情会不会让我的论坛谷歌耳光?我也在考虑拥有 sub4sub,因为他们拥有 youtube,这很可能是这种情况,但有人知道它是否可以吗?
  • @zeddex:抱歉,帮不上忙。无论如何,这样的问题对于 Stack Overflow 来说都是题外话。姊妹网站Webmasters 可能会有所帮助,因为 SEO 是那里的主题。
【解决方案2】:

您只能通过 robots.txt 禁止目录,而不是文件。 首先,从目录中删除星号。

Disallow: /adm/
Disallow: /download/

至于文件,您可以将其添加到 部分。它不会阻止机器人获取,但好的机器人应该忽略它并继续前进。

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

【讨论】:

  • 谢谢,那么对于 PHPBB,您将如何阻止搜索引擎从特定论坛区域通过?那么“Disallow: /viewforum.php?f=146”会不起作用吗?
  • 这不是真的。 Robots.txt 不关心是目录、文件还是其他东西。
猜你喜欢
  • 1970-01-01
  • 2023-02-01
  • 2016-06-23
  • 1970-01-01
  • 2011-06-17
  • 2016-03-25
  • 1970-01-01
  • 2012-01-03
相关资源
最近更新 更多