【问题标题】:Drupal and Google Search Appliance (Google Mini)Drupal 和 Google Search Appliance (Google Mini)
【发布时间】:2023-03-24 05:58:01
【问题描述】:

我有一个 Drupal 网站,其中的页面由 Google Mini 搜索设备编入索引。

本周早些时候,我注意到一堆链接被标记为已编入索引,但被排除在外,因为有一个“打印此页面”链接返回到同一页面并且有一个 rel="nofollow"。两天前,我取出了 nofollow 并让 GSA 重新索引该站点。

现在,相关页面在 GSA 中被标记为已编入索引,但它们并未显示在网站的搜索结果中。

我可以在 /search/google_appliance/TERM 进行搜索,但它们没有出现。当我搜索其他术语时,它们确实出现了。换句话说,我知道 GSA 正在工作。

当我在 /search/node/TERM [Drupal 默认搜索] 进行搜索时,我得到了不同的 Drupal 结果[显示了该术语的页面]。这让我很确定我正在达到 GSA。

关于为什么新编入索引的页面没有出现在 GSA 搜索中的任何想法?

编辑/已解决: 有几个问题。以前,搜索使用 xslt 来处理它如何显示页面,以及当您点击提交时它在页面上发送查询的位置(在设备上,而不是网站上的提交按钮)。查询字符串以旧格式传递给站点,然后给出 404(就像您搜索 bookstore.site.com 和 origin.site.com 一样)。更多的是“无法从这里到达那里”之类的问题,而不是与搜索有关的任何问题。我已经删除了 xslt,所以它只使用了默认的 google 外观,让我们可以对设备的数据库进行很好的通用搜索。

但是,仍然返回了一些 Drupal 模块无法解析的奇怪搜索结果,并且日志被 simplexml_load_string() [function.simplexml-load-string]: ^ in \sites\all\modules\ google_appliance\GoogleMini.php 在第 318 行。

我尝试了一些查询字符串变量并注释掉设置输出编码的行,一切似乎都有效。 有问题的行位于第 322 行的 google_appliance.module 中:

$gm->setOutputEncoding('utf8');

【问题讨论】:

  • 这方面有什么进展吗?您是否发现了任何有助于减少要考虑的假设数量/有助于追踪问题的进一步信息?

标签: search drupal google-search-appliance drupal-5


【解决方案1】:

我不是 100% 确定我的问题是正确的。我在这里假设:

  1. GSA 缺少索引的是有“打印此页面”链接的页面(而不是假设这些页面已编入索引并且问题在于索引此类页面的可打印版本)
  2. 以下位表示您可以找到包含其他术语的其他页面,而不是使用其他术语搜索它们时可以找到丢失的页面

我可以在 /search/google_appliance/TERM 进行搜索,但它们没有出现。当我搜索其他术语时,它们确实出现了。换句话说,我知道 GSA 正在运行

如果我误解了您的问题,请纠正我。如果我弄错了,请提供有关您使用的条款的更多详细信息。

然而,我会这样做来确定问题的根源(尽管我可能不会按照这个精确的顺序执行这些操作):

  1. 我会尝试了解触发奇怪行为的“不良页面”(如果有的话)的独特元素是什么。看来您已经完成了一些挖掘工作,并认为罪魁祸首是打印链接。您是否已通过完全删除链接来验证这一点,并查看在这种情况下页面是否被正确编入索引?
  2. 我会检查robots.txt 中是否有任何可能会干扰索引编制的规则。 GSA 尊重该文件,例如,如果您网页的 URL 以 /admin/ 开头,那些页面将被跳过。
  3. 我会检查我的网页是否有某种访问控制限制他们的视图。如果是这种情况,我会检查GSA has been configured for that。 (当然,这同样适用于未发布的页面,您必须是管理员才能使用外部应用程序查看或索引它们)。
  4. 我不确定 GSA 是否使用 sitemap.xml 来执行索引。但是,我会检查 drupal 生成的 sitemap.xml 文件(如果有),以检查诸如优先级设置为 0 之类的明显错误。如果您没有这样的文件,并且知道 GSA 使用它,我会尝试生成一个 with the appropriate module 看看这是否能解决问题。
  5. 我会inspect the sitemap generated by GSA 看看它是否显示任何明显的异常。这显然不是问题,但任何类型的不言自明的异常都可以让您走上正轨。
  6. 如果问题不是特定于页面结构(请参阅此列表的第 1 点),我将开始系统地搜索产生错误的非结构元素是什么。不同的主题是否可以解决问题。停用给定模块是否可以解决问题? (也许问题出在元标记上?也许是“打印此页面”模块?也许一个模块将这些页面的语言设置为与站点其他部分不同的语言?)。所有这些都不太可能发生,但在用大锤砸倒 GSA 之前,我也会尝试一下。
  7. 我会浏览(可能是第 N 次)所有settings of my GSA

以上所有 - 如果我有机会 - 我会和同伴一起做。他或她可以帮助排除“人为因素”作为问题的根源(即配置面板中的那个小复选框对他/她来说非常重要,但您以前从未注意到......)。

如果您设法找到有关正在发生的事情的更多提示,请在此处报告。如果这是 drupal 方面的问题,我很确定我或其他在 SO 上闲逛的优秀“drupalists”将能够提供帮助。

HTH!

【讨论】:

    【解决方案2】:

    我最近遇到了类似的事情。

    这里有一个建议——选择一个你知道有搜索词的页面。在浏览器中打开页面的 HTML 并确保您看到该术语。绝对确定。

    接下来,获取该 URL 并将其作为抓取的起始页面之一。

    抓取完成后,进入“搜索诊断”并深入到该页面。你看到它爬了吗?好的,太好了,现在去看看页面的缓存。 “指向此页面的链接”正下方应该是一个名为“缓存版本”的超链接。看那个。你可能会大吃一惊!我当然是。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-08-08
      • 2013-06-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多