【发布时间】:2010-10-23 23:08:14
【问题描述】:
我需要在用户将实体保存到数据库之前生成可能重复的列表并警告他们可能的重复。
我们应该根据 7 个标准检查重复项,如果至少 3 个匹配,我们应该将其标记给用户。 条件将在 ID 上全部匹配,因此不需要模糊字符串匹配,但我的问题来自这样一个事实,即至少有 3 个项目可以匹配来自7 种可能的列表。
我不想执行 99 个单独的数据库查询来查找我的搜索结果,也不想从数据库中取回全部内容并在客户端进行过滤。目前我们可能只是在谈论几万条记录,但随着系统的成熟,这将增长到数百万条。
有人想到了一种很好的有效方法吗? 我正在考虑一个简单的 OR 查询以从数据库中获取至少一个字段匹配的记录,然后在客户端上进行一些处理以对其进行更多过滤,但是其中一些字段的基数非常低,实际上不会减少数量巨大。
谢谢 乔恩
【问题讨论】:
标签: database search duplicate-data