【问题标题】:Compound word handling in solrsolr 中的复合词处理
【发布时间】:2014-03-13 17:34:57
【问题描述】:

有复合词,可写成“手提包”或“手提包”。如果我们在 solr 索引中有“手提包”,那么在搜索“手提包”时,如何显示“手提包”的结果。我尝试过使用多词同义词解析器。但为此,我必须在同义词文件中添加 add handbag=>hand bag。但名单很长。我无法在列表中添加单词。

【问题讨论】:

    标签: indexing solr query-analyzer


    【解决方案1】:

    Solr 已经提供了一个基于字典的分解过滤器。查看 Solr wiki 了解更多详情:https://wiki.apache.org/solr/LanguageAnalysis#Decompounding

    【讨论】:

    • 使用 solr.DictionaryCompoundWordTokenFilterFactory,我将不得不提供一个字典文件,并且只管理该文件中提到的关键字。但这也可以通过 solr.SynonymExpandingExtendedDismaxQParserPlugin 来完成,我必须在同义词文件中手动添加关键字。我不想添加任何这样的关键字文件。我希望动态处理所有单词。
    • 但是无论如何您都需要提供某种字典,以便过滤器可以检测到有效的单词边界。我通常使用 enable2k 单词列表来输入英文文本。link
    • 如果不提供任何字典就不能这样做。也就是说,它应该为每个字符串生成复合词,而不考虑任何字典单词。
    猜你喜欢
    • 2019-01-11
    • 1970-01-01
    • 2018-08-30
    • 1970-01-01
    • 1970-01-01
    • 2013-10-09
    • 2013-01-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多