【发布时间】:2017-01-25 19:21:44
【问题描述】:
我们正在做唱片联动项目。 我们从 Jaro Winkler、Levenshtein、N-Gram、Damerau-Levenshtein、Jaccard index、Sorensen-Dice 等所有标准技术中观察到一种奇怪的行为
说,
字符串 1= 迷你磨床套件
String 2= Weiler 13001 迷你磨床配件套件,用于小型直角磨床
String 3= Milwaukee 视频管道镜,旋转检查镜,系列:M-SPECTOR 360,2.7 英寸 640 x 480 像素高分辨率 LCD,塑料,黑色/红色
在上述情况下,字符串 1 和字符串 2 与所有方法的得分相关,如下所示。
加罗·温克勒 -> 0.391666651
Levenshtein -> 75
N-Gram,-> 0.9375
Damerau -> 75
杰卡德指数 -> 0
索伦森骰子 -> 0
余弦 -> 0
但字符串 1 和字符串 3 完全不相关,但是距离方法给出了很高的分数。
加罗·温克勒 -> 0.435714275
Levenshtein -> 133
N-Gram,-> 0.953571439
Damerau -> 133
杰卡德指数 -> 1
索伦森骰子 -> 0
余弦 -> 0
有什么想法吗?
【问题讨论】:
标签: string record similarity levenshtein-distance linkage