【发布时间】:2020-02-17 19:40:35
【问题描述】:
我很难识别唯一记录(值)。 我有一张这样的桌子:
ID NAME DESCRIPTION
1 Yanagida Fumit best author
2 Ha Il-kwan new author
3 Fumit Yanagida best author
4 Ha Il Kwan new author
5 Ilkwan Ha new author
在同一个名为autho 的表中有5 条记录。但实际上,有 2 个作者。
第一条记录和第三条记录是从一个作者信息中存储的,第二条、第四条和第五条是一个作者。
我想像下面这样。
ID NAME DESCRIPTION
1 Yanagida Fumit best author
2 Ha Il Kwan new author
这意味着,我将针对 reverse name problem 删除所有重复项。 我想知道我是否可以比较同一列中的两个值(字符串)。 请帮帮我。我会很高兴得到您的任何帮助!
【问题讨论】:
-
你想使用 levenshtein distance 来解决这个问题。
-
转换为 SET,其中每一位都是一个确定的字母。这足以识别 >95% 的重复项。
-
@Mech 感谢您的快速回答!您介意进一步详细解释一下 levenshtein 距离吗?
-
我在堆栈上找到了类似的解决方案,但我认为我没有正确使用它:) dbfiddle.uk/…
-
谢谢大家!我很高兴你的帮助。我第一次面对levenshtein。所以我对每个答案都感到惊讶(尤其是@VBoka 的答案)。 :)