【发布时间】:2017-08-07 19:55:55
【问题描述】:
我刚刚从我们的产品数据库中索引了一堆文本数据。我的目标是评估 Apache Solr 的生产用途。
这是一个文档示例:
{
"shape":"Geometric",
"color":"MATTE BLACK",
"gender":"unisex",
"model":"CLUBMASTER RX 5154",
"sales":10,
"lens":"rugged",
"material":"plastic",
"brand":"Ray-Ban"
}
在我们的搜索应用中最重要的是模糊匹配,因为不准确的搜索词非常频繁。
所以,我对 Solr 找到的结果有点失望。
例如:
clubmaster -> many results
club master -> no results
为什么?!
ray ban -> many results
rayban -> no results
我还尝试在任期结束后放置 ~1 甚至 ~2,但没有成功!
所有字段都被索引为“*_txt_en”预定义字段。
【问题讨论】:
-
ShingleFilter 可能会对您有所帮助。
标签: solr lucene full-text-search fuzzy-search