【发布时间】:2013-05-15 15:52:15
【问题描述】:
我怀疑即使我很努力也无法回答自己。
我认为是理解的问题。
所以...
我正在尝试索引一个长文本字段(产品描述),其中可能包含重复的单词。假设我们在谈论一种风味,我们说巧克力,然后继续说下去,然后又是巧克力。
当 solr 进行索引时,(据我了解 solr 控制面板中的分析选项卡),它将创建一个术语(它们是“指针”,每个术语 -> 关联到一个 uniqueKey 属性我们拥有的每个令牌的“项目”)。
solr 索引是否会有两个术语指向同一个项目?
这是我的文本分析器:
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.GermanNormalizationFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" enablePositionIncrements="true" />
<filter class="solr.EnglishPossessiveFilterFactory"/>
<filter class="solr.EnglishMinimalStemFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
我虽然删除了重复条目,但是当我查看分析时发现:
就我不了解 solr 而言,最后,在我的索引中,会有这三个术语指向那个“项目”:巧克力、blablabla 和巧克力。是这样吗?
我希望问题很清楚:)
谢谢!
【问题讨论】:
标签: solr