【问题标题】:Solr tokenizer filter substringSolr 标记器过滤器子字符串
【发布时间】:2017-09-01 15:13:41
【问题描述】:

有没有一种方法来索引一个字段,以便每个包含单词的子字符串都被视为单独的标记?

例如,输入: “你好,你好吗?”

输出: “你好世界你好吗”、“你好世界怎么样”、“你好世界怎么样”、“你好世界”、“你好”

这将与 SuggestComponent 结合使用,为用户提供自动建议。

【问题讨论】:

    标签: solr autocomplete autosuggest


    【解决方案1】:

    原则上,solr.ShingleFilterFactory 之类的东西可以为您解决问题。它有 2 个参数:minShingleSizemaxShingleSize,因此它会为您生成 很多 令牌,其中一些可能对您没有用处(这对您来说也意味着很多浪费了磁盘空间)

    您可能需要过滤掉不需要的令牌或可能编写自己的过滤器。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-09-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-09-07
      • 2013-10-05
      • 1970-01-01
      相关资源
      最近更新 更多