【问题标题】:PatternTokenizerFactory and stopwordsPatternTokenizerFactory 和停用词
【发布时间】:2011-06-23 15:36:56
【问题描述】:

solr/lucene 中的一个名为 COLORS 的文档字段包含如下一组单词:

field1:蓝色/深红色/绿色 字段2:蓝色/黄色/橙色 [...]

我需要对其进行分面搜索以获取所有颜色和每种颜色的计数。 首先我尝试了 PatternTokenizerFactory,然后是停用词列表:

<analyzer>
        <tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.TrimFilterFactory" />
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords"
        enablePositionIncrements="true"
        />
</analyzer>

不幸的是,停用词列表接缝被忽略。停用词出现在分面搜索结果中。

SO question 描述了同样的问题。不幸的是,发布的解决方案对我不起作用,因为我不能使用 solr.StandardTokenizerFactory,因为标准标记器也会在 whitspaces 上拆分标记。这意味着“深红色”变成“深色”和“红色”,这是错误的。

有没有办法使用模式分词器?

感谢您的任何帮助!

【问题讨论】:

    标签: lucene solr facet faceted-search


    【解决方案1】:

    供您参考:构面、模式标记器和停用词将在 lucene / solr 4 中工作 :-)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2013-06-08
      • 1970-01-01
      • 1970-01-01
      • 2020-07-31
      • 1970-01-01
      • 2023-03-17
      • 2011-09-12
      相关资源
      最近更新 更多