【发布时间】:2010-12-08 03:20:30
【问题描述】:
我正在浏览所有现有的问题帖子,但找不到非常相关的内容。
我有数以百万计的人名、姓氏、地址 1、地址 2、国家代码、出生日期的记录 - 我想每天检查我的客户名单和上述文件(我的客户名单也得到每天更新,文件也每天更新)。
对于名字和姓氏,我想要模糊匹配(可能是 lucene 模糊查询/levenshtein 距离 90% 匹配),对于其余字段,国家和出生日期我想要完全匹配。
我是 Lucene 的新手,但是通过查看帖子的数量,看起来是可能的。
我的问题是:
- 我应该如何索引我的输入文件?我需要在 FN、LN、国家、DOB 的组合上建立索引并使用索引进行搜索
- 如何在这里使用 Lucene 的模糊查询?
还有其他方法可以实现吗?
【问题讨论】:
标签: lucene fuzzy-search