【问题标题】:Support for both EdegeNGram analysis and phrase search in Solr 3.4.0在 Solr 3.4.0 中支持 EdegeNGram 分析和短语搜索
【发布时间】:2012-01-19 12:53:17
【问题描述】:

我想为 SOLR 查询中的每个术语启用“startsWith”搜索,但也能够执行短语搜索(在引号中给出)。 对于前缀搜索,我首先添加了后缀“*”。此解决方案允许前缀搜索和短语搜索,但我不喜欢此解决方案,因为它是通配符搜索,通配符搜索不分析术语。

所以我只在索引时启用了 EdgeNgramFilterFactory。前缀搜索工作正常,但确切的短语搜索不再工作。

有谁知道即使启用了 EdgeNgram 也可以启用短语搜索?

谢谢!

这里是 schema.xml

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="back" />
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front" />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>

        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldType>

我还注意到,当使用 WordDelimiterFilterFactory 时,突出显示不再表现良好。

【问题讨论】:

  • 如果您发布您的 schema.xml 可能会有所帮助,以便我们可以看到您在做什么。

标签: solr prefix phrase


【解决方案1】:

短语搜索不起作用,因为 EdgeNGram 会产生额外的术语并增加每个单词块的术语位置(令人惊讶的是)。短语应该是准确的,这意味着两个连续术语之间的距离(斜率)是 1。但是对于块索引文本看起来不同。假设您使用&lt;filter class="solr.EdgeNGramFilterFactory" minGramSize="2" side="front"/&gt; 为文本“Hello World”建立了索引。然后索引文本看起来像“he hel hell hello wo wor worl world”。你会发现短语“hel hell”而不是“hello world”。

作为一个选项,您可以通过增加查询解析器 (dismax) 的 qs 参数来允许单词之间的一些距离。

但“不完全短语”搜索可能是不可接受的,因为您会发现额外的意外短语,例如“地狱”。

更好的选择是use a separate field for ngrams。在这种情况下,文本将在两个字段中进行索引,并且 ngram 不会破坏原始文本。

【讨论】:

    【解决方案2】:

    您可以使用两个字段 - 一个用于前缀和后缀搜索,另一个用于完全匹配。

      <field indexed="true" name="myfield_edgy"        type="edgy"/>
      <field indexed="true" name="myfield_exactmatch"  type="exactmatch"/>
      <copyField source="myfield_exactmatch" dest="myfield_edgy"/>
    

    现在您可以在这两个字段中进行搜索,甚至可以使用不同的提升,即将 myfield_exactmatch 中的匹配排名更高。

    【讨论】:

      【解决方案3】:

      另一个选项是升级到 3.6.0,因为现在通配符不会阻止查询被分析

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-08-12
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多