【发布时间】:2015-02-01 18:05:39
【问题描述】:
我在 db 列中有人名(名字、姓氏和姓氏)。 数据未满,例如某些行
- 只有名字、姓氏或姓氏。
- 顺序不同(姓氏,姓氏)
- 拼写错误
我需要一种算法来显示组中的一组行,这将表明它是同一个人,我将去手动删除它们,除了一个。
这些数据非常具体,并且名称不重复,所以如果我们有 John、Jonh Smihtm 和 John Smith,这肯定是同一个人,我会去手动删除除了最后一个。
我需要在可能性组中显示它们。所以应该有一组非常可能是同一个人(John Smith, Jonh Smit),那么应该有一组可能是同一个人(约翰,约翰尼)和一组可能是同一个人(乔,乔纳森)。
我对数据挖掘和聚类比较陌生,所以请告诉我一些算法以及如何开始。
【问题讨论】:
-
有趣的问题,但可能是迁移到统计数据的候选者。 IMO 这里的关键问题是找到一个好的模型。
标签: algorithm cluster-analysis spell-checking levenshtein-distance