【问题标题】:Solr - removing special charactersSolr - 删除特殊字符
【发布时间】:2014-05-14 20:21:42
【问题描述】:

一个非常基本的问题,但谁能告诉我如何在 solr 中进行索引时从文档中删除特殊字符?我浏览了 Solr wiki,但找不到任何相关内容。我看到很少有像 WhiteSpaceTokenizerFactory 和 StandardTokenizerFactory 这样的标记器。我在我的 schema.xml 中使用 WhiteSpaceTokenizerFactory,但它似乎并没有解决目的。我仍然可以使用“*”和“-”等查询。

【问题讨论】:

  • 您要删除哪些特殊字符?
  • @Mysterion 喜欢 *、-、?、\n 等

标签: solr indexing information-retrieval


【解决方案1】:

考虑使用标准分词器:

<tokenizer class="solr.StandardTokenizerFactory"/>

它应该删除你提到的字符。

一旦单词被标记化,您就可以应用进一步的处理,例如拆分大小写变化和数字,使用 WordDelimiterFilterFactory 以获得更好的匹配。

此外,在处理模式配置时几乎一直非常有用的是 solr 的分析页面。它为您提供了很多有价值的反馈。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-05-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多