【发布时间】:2011-04-13 14:51:33
【问题描述】:
我正在编写一些代码来查找数据库中重复的客户详细信息。我将使用 Levenshtein 距离。
但是,我不确定如何存储关系。我一直在使用数据库,但从未遇到过这种情况,我想知道是否有人可以为我指明正确的方向。
让我困惑的是如何存储关系的双向性质。
我已经开始在下面放一些示例,但想知道是否有存储此类数据的最佳实践,
示例数据
身份证、地址
001, 5 大街
002, 5 Main St.
003, 5 主线
004, 6 大街
005, 7 低街
006, 7 低街
建议 1
customer_id1、customer_id2、relationship_strength
001, 002, 0.74
001, 003, 0.77
002, 003, 0.76
005、006、0.77
对这种方法不满意,因为它在某种程度上推断出 customer_id1 和 customer_id2 之间的单向关系。当然,除非我以两种方式都包含所有关系,但这会使处理时间和表格大小加倍。
例如需要包括:002、001、0.74
建议 2
customer_id、grouping_id
001, 1
002, 1
003, 1
005、2
006、2
【问题讨论】:
标签: database database-design data-structures deduplication