为什么这个简单的 Solr 突出显示尝试失败了？答案

【问题标题】：Why is this simple Solr highlighting attempt failing?为什么这个简单的 Solr 突出显示尝试失败了？
【发布时间】：2012-04-08 05:32:06
【问题描述】：

我已多次阅读 Solr 高亮 wiki 文档，到处搜索，但我的 Solr 安装无法获得基本的高亮显示。我在演示 Jetty 6.1 服务器上运行 Solr 3.5。

我已经索引了 250K 文档，并且能够很好地搜索它们。除了配置我的文档字段定义之外，大部分 Solr 配置都是“库存”，尽管我暂时注释掉了 solrconfig.xml 的“突出显示默认值”以确保它们不会导致此问题：

  <!-- Highlighting defaults
   <str name="hl">on</str>
   <str name="hl.fl">title snippet</str>
   <str name="f.name.hl.fragsize">0</str>
   <str name="f.name.hl.alternateField">name</str> -->

我的 URL 查询字符串非常简单。我尝试了很多变体，但这是我最新的，它返回最基本的查询：

hl=on&hl.fl=title&indent=on&version=2.2&q=toyota&fq=&start=0&rows=1&fl=*%2Cscore

这是生成的 XML：

<?xml version="1.0" encoding="UTF-8"?>
<response>

<lst name="responseHeader">
  <int name="status">0</int>
  <int name="QTime">32</int>
  <lst name="params">
    <str name="explainOther"/>
    <str name="indent">on</str>
    <str name="hl.fl">title</str>
    <str name="wt"/>
    <str name="hl">true</str>
    <str name="version">2.2</str>
    <str name="rows">1</str>
    <str name="fl">*,score</str>
    <str name="start">0</str>
    <str name="q">toyota</str>
    <str name="qt"/>
    <str name="fq"/>
  </lst>
</lst>
<result name="response" numFound="9549" start="0" maxScore="0.9960097">
  <doc>
    <float name="score">0.9960097</float>
    <str name="id">2-33-200</str>
    <str name="title">1992 Toyota Camry 2.2L CV Boots</str>
  </doc>
</result>
<lst name="highlighting">
  <lst name="2-33-200"/>
</lst>
</response>

如何进一步调试此问题？谢谢！

编辑这是来自 solrconfig.xml 的 <highlighting> 部分。正如我所说，这是库存。这可能是问题所在，但我是 Solr 的新手，还不熟悉突出显示的来龙去脉（显然）。

    <highlighting>
  <!-- Configure the standard fragmenter -->
  <!-- This could most likely be commented out in the "default" case -->
  <fragmenter name="gap" 
              default="true"
              class="solr.highlight.GapFragmenter">
    <lst name="defaults">
      <int name="hl.fragsize">100</int>
    </lst>
  </fragmenter>

  <!-- A regular-expression-based fragmenter 
       (for sentence extraction) 
    -->
  <fragmenter name="regex" 
              class="solr.highlight.RegexFragmenter">
    <lst name="defaults">
      <!-- slightly smaller fragsizes work better because of slop -->
      <int name="hl.fragsize">70</int>
      <!-- allow 50% slop on fragment sizes -->
      <float name="hl.regex.slop">0.5</float>
      <!-- a basic sentence pattern -->
      <str name="hl.regex.pattern">[-\w ,/\n\&quot;&apos;]{20,200}</str>
    </lst>
  </fragmenter>

  <!-- Configure the standard formatter -->
  <formatter name="html" 
             default="true"
             class="solr.highlight.HtmlFormatter">
    <lst name="defaults">
      <str name="hl.simple.pre"><![CDATA[<em>]]></str>
      <str name="hl.simple.post"><![CDATA[</em>]]></str>
    </lst>
  </formatter>

  <!-- Configure the standard encoder -->
  <encoder name="html" 
           class="solr.highlight.HtmlEncoder" />

  <!-- Configure the standard fragListBuilder -->
  <fragListBuilder name="simple" 
                   default="true"
                   class="solr.highlight.SimpleFragListBuilder"/>

  <!-- Configure the single fragListBuilder -->
  <fragListBuilder name="single" 
                   class="solr.highlight.SingleFragListBuilder"/>

  <!-- default tag FragmentsBuilder -->
  <fragmentsBuilder name="default" 
                    default="true"
                    class="solr.highlight.ScoreOrderFragmentsBuilder">
    <!-- 
    <lst name="defaults">
      <str name="hl.multiValuedSeparatorChar">/</str>
    </lst>
    -->
  </fragmentsBuilder>

  <!-- multi-colored tag FragmentsBuilder -->
  <fragmentsBuilder name="colored" 
                    class="solr.highlight.ScoreOrderFragmentsBuilder">
    <lst name="defaults">
      <str name="hl.tag.pre"><![CDATA[
           <b style="background:yellow">,<b style="background:lawgreen">,
           <b style="background:aquamarine">,<b style="background:magenta">,
           <b style="background:palegreen">,<b style="background:coral">,
           <b style="background:wheat">,<b style="background:khaki">,
           <b style="background:lime">,<b style="background:deepskyblue">]]></str>
      <str name="hl.tag.post"><![CDATA[</b>]]></str>
    </lst>
  </fragmentsBuilder>

  <boundaryScanner name="default" 
                   default="true"
                   class="solr.highlight.SimpleBoundaryScanner">
    <lst name="defaults">
      <str name="hl.bs.maxScan">10</str>
      <str name="hl.bs.chars">.,!? &#9;&#10;&#13;</str>
    </lst>
  </boundaryScanner>

  <boundaryScanner name="breakIterator" 
                   class="solr.highlight.BreakIteratorBoundaryScanner">
    <lst name="defaults">
      <!-- type should be one of CHARACTER, WORD(default), LINE and SENTENCE -->
      <str name="hl.bs.type">WORD</str>
      <!-- language and country are used when constructing Locale object.  -->
      <!-- And the Locale object will be used when getting instance of BreakIterator -->
      <str name="hl.bs.language">en</str>
      <str name="hl.bs.country">US</str>
    </lst>
  </boundaryScanner>
</highlighting>

编辑虽然最初我的“title”字段设置为 indexed="false"，但我已经测试将其设置为 true（没有更改/仍然没有突出显示），还有 termVectors="true" termPositions="true" termOffsets="true"... 仍然没有效果。（我根据阅读 this post to SO 尝试了这些。）

这是我现在的“标题”字段定义：

<field name="title" type="string" indexed="true" stored="true" required="true" termVectors="true" termPositions="true" termOffsets="true" />

一开始我是：

<field name="title" type="string" indexed="false" stored="true" required="true" />

编辑我现在也尝试过这个定义：

<field name="title" type="text_general" indexed="true" stored="true" required="true" termVectors="true" termPositions="true" termOffsets="true" />

并且突出显示没有变化，仍然无法正常工作。我的 text_general 定义是 Solr 演示附带的默认定义：

 <!-- A general text field that has reasonable, generic
        cross-language defaults: it tokenizes with StandardTokenizer,
 removes stop words from case-insensitive "stopwords.txt"
 (empty by default), and down cases.  At query time only, it
 also applies synonyms. -->
 <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
      <!-- in this example, we will only use synonyms at query time
      <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
      -->
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
      <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
 </fieldType>

编辑我现在也尝试使用 text_en_splitting 字段类型重新索引标题，它使用 WhitespaceTokenizerFactory 而不是 StandardTokenizerFactory，但仍然没有突出显示。对于它的价值，我使用的是标准查询解析器，根据 debugQuery=on 是 LuceneQParser。

终于！感谢@javanna 的帮助。我做了很多实验，两个关键点是：

您必须使用标记字段类型。字符串字段类型不起作用。 indexed=true 或 termVectors=true 似乎没有必要，但字段类型必须标记化。
您必须小心使用正确的大小写来引用您的字段。除了搞砸标记化之外，我还在开发过程中更改了我的字段的大小写，并忘记更改 hl.fl（突出显示的字段）定义的大小写 - 阻止突出显示工作。
确保在每次配置更改之间重新建立索引。为了安全起见，我从索引中删除了所有文档，然后从头开始重建它，但这可能没有必要。

我的定义现在显示为：

<field name="Title" type="text_general" indexed="false" stored="true" required="true" />

我的 solrconfig.xml 有这个设置：

<str name="hl">on</str>
<str name="hl.fl">Title</str>

【问题讨论】：

您可以在您的 schema.xml 中发布您的标题字段定义吗？
当然可以，很抱歉我一开始就把它漏掉了。
谢谢！还有一件事：schema.xml 中字符串 fieldType 的定义是什么？默认的还是其他的？
这是默认设置，在阅读了您下面的答案后，这听起来像是我搞砸了。 :)
将字符串类型设置为text_general 救了我。感谢您提出这个问题并提供解决方案。

标签： solr

【解决方案1】：

您进行突出显示的方式看起来不错，但是您的 solrconfig.xml 看起来有点乱。不幸的是，你举的例子基本上使用了所有可用的选项，我猜你不需要它们。除非您需要与默认值不同的东西，否则我会开始注释掉您的所有突出显示配置以及默认参数。然后我会使用您需要的 url 参数，只需几个开始：hl=on 和 hl.fl=title。找到正确的参数后，您可以将它们配置为默认值。

也就是说，鉴于您的标题 fieldType 我怀疑它没有被标记化，除非您更改了默认的字符串类型定义。在这种情况下，您的查询将与标题字段不匹配，这就是您没有突出显示它的原因。您是否正在使用 edismax（或 dismax）？如果是，您的 qf 参数是什么？丰田术语是否可能在与您的查询匹配的另一个字段上？如果您使用的是 edismax，您可以尝试搜索 q=title:toyota 并查看是否有结果。

您还可以检查您的匹配在哪里启用 debugQuery=on 并检查调试输出。

更新
我看到您将标题 fieldType 更改为 text_general，但这并没有改变任何内容，因为该类型未在空格上进行标记。你还没有告诉你正在使用什么查询解析器，无论如何，如果我是对的，你应该使用WhitespaceTokenizerFactory 而不是StandardTokenizerFactory：

<tokenizer class="solr.WhitespaceTokenizerFactory"/>

之后，请记住重新索引所有数据，否则您将看不到任何更改。基本上，如果您对 toyota whatever 之类的内容进行索引而不对空格进行标记，您将不会得到任何搜索 toyota 的结果，并且您甚至不会在该字段上突出显示 toyota，因为它不匹配。我的假设是您正在使用dismax 或edismax 查询解析器并搜索多个字段，其中一些但标题与您的搜索不匹配，这就是为什么您会得到结果但没有在title 上突出显示，您选择突出显示的唯一字段。你能发布你搜索toyota的结果吗？ toyota 是不是 title 以外的其他字段？

【讨论】：

是的，它看起来确实很乱，但这是 Solr 3.5 中的默认配置。 :) 我不使用 dismax 或 edismax 除非它是默认配置。周一上班的时候我会试试你的建议，谢谢！
@MasonG.Zhwiti 我不应该这么说，但是...永远不要相信 solr 示例 :) 真的，为了了解 SOlr 的工作原理，最好从几乎空的架构和干净的配置开始.如果我能提供更多帮助，请告诉我！
我仍在努力将配置重置为更简单的东西，但到目前为止，我已经尝试将标题 fieldType 更改为 text_general，有和没有 termVector=true，但这并没有做任何事情我关于突出显示。
@MasonG.Zhwiti 如果您想更多地了解您的搜索结果，您应该启用debugQuery。无论如何，不幸的是，您仍在使用未在空格上标记的字段类型。看看我更新的答案。
对不起，我仍然很困惑如何判断我正在使用什么查询解析器？我正在使用 Solr 3.5 演示附带的默认设置。如果我查看我的 solrconfig.xml 配置，我根本没有设置 defType（不是 edismax 或其他任何东西）。是在那里定义的吗？搜索“toyota”实际上匹配标题字段和其他字段。所以假设我的配置没问题，标题字段应该突出显示。我现在将尝试将 StandardTokenizer 换成 WhitespaceTokenizer，看看是否有帮助。