【发布时间】:2009-12-30 14:11:36
【问题描述】:
我使用 Zend Lucene 来索引瑞典语文本。问题是 lucene 以瑞典语字符 åäö 标记单词。例如,单词“världens”在索引中变成了两个单词“v”和“ldens”。
有没有办法添加 zend lucene 应该接受而不是标记的字符?
【问题讨论】:
标签: zend-framework lucene zend-search-lucene zend-lucene
我使用 Zend Lucene 来索引瑞典语文本。问题是 lucene 以瑞典语字符 åäö 标记单词。例如,单词“världens”在索引中变成了两个单词“v”和“ldens”。
有没有办法添加 zend lucene 应该接受而不是标记的字符?
【问题讨论】:
标签: zend-framework lucene zend-search-lucene zend-lucene
使用UTF-8 compatible text analyzer 而不是default text analyzer 进行标记化。请注意,这需要使用 UTF-8 支持编译 PHP 的 PCRE(Perl 兼容的正则表达式)库(如果您使用与 PHP 捆绑的 PCRE 库,则为默认设置,但如果您使用共享库,则可能未启用)。对于不区分大小写的 UTF-8 兼容分析器版本,您还需要启用 mbstring 扩展。
【讨论】:
使用分析器。请参阅有关 text analysis、using utf8 的文档和有关 writing your own analyser 的文档。我建议您只使用 UTF-8 分析器。
【讨论】: