【发布时间】:2010-09-08 23:57:57
【问题描述】:
Lucene 对俄语的支持很差。
RussianAnalyzer(lucene-contrib 的一部分)质量非常低。
Snowball 的RussianStemmer 模块更糟糕。它不能识别 Unicode 字符串中的俄语文本,显然是假设必须使用 Unicode 和 KOI8-R 的某种奇怪组合。
你知道更好的解决方案吗?
【问题讨论】:
标签: lucene
Lucene 对俄语的支持很差。
RussianAnalyzer(lucene-contrib 的一部分)质量非常低。
Snowball 的RussianStemmer 模块更糟糕。它不能识别 Unicode 字符串中的俄语文本,显然是假设必须使用 Unicode 和 KOI8-R 的某种奇怪组合。
你知道更好的解决方案吗?
【问题讨论】:
标签: lucene
我的回答可能为时已晚,但为了记录,我发现 analyzers from AOT project 比 Lucene 附带的要好得多。
【讨论】:
如果一切都失败了,请使用Sphinx
【讨论】:
【讨论】:
这就是开源的美妙之处。你有源代码,所以如果当前的实现不适合你,你总是可以创建自己的,甚至更好,扩展现有的。 “Lucene in Action”一书是一个好的开始。
【讨论】: