【问题标题】:Record linkage using String similarity Techniques使用字符串相似性技术记录链接
【发布时间】:2017-01-25 19:21:44
【问题描述】:

我们正在做唱片联动项目。 我们从 Jaro Winkler、Levenshtein、N-Gram、Damerau-Levenshtein、Jaccard index、Sorensen-Dice 等所有标准技术中观察到一种奇怪的行为

说, 字符串 1= 迷你磨床套件
String 2= Weiler 13001 迷你磨床配件套件,用于小型直角磨床
String 3= Milwaukee 视频管道镜,旋转检查镜,系列:M-SPECTOR 360,2.7 英寸 640 x 480 像素高分辨率 LCD,塑料,黑色/红色

在上述情况下,字符串 1 和字符串 2 与所有方法的得分相关,如下所示。
加罗·温克勒 -> 0.391666651
Levenshtein -> 75
N-Gram,-> 0.9375
Damerau -> 75
杰卡德指数 -> 0
索伦森骰子 -> 0
余弦 -> 0

但字符串 1 和字符串 3 完全不相关,但是距离方法给出了很高的分数。
加罗·温克勒 -> 0.435714275
Levenshtein -> 133
N-Gram,-> 0.953571439
Damerau -> 133
杰卡德指数 -> 1
索伦森骰子 -> 0
余弦 -> 0

有什么想法吗?

【问题讨论】:

    标签: string record similarity levenshtein-distance linkage


    【解决方案1】:

    所有距离计算分数都区分大小写。因此,将所有这些都带到同一个案例中。然后你就可以正确地看到分数计算了。

    【讨论】:

      【解决方案2】:

      我相信您的目标是检查这两种产品是否相同。我猜这些数据来自不同的来源,如果是这样的数据,您需要找出最重要的值得比较的地方是什么?!品牌名称、规格等...

      这些指标遵循非常粗略的相似性概念!不要只提供这样的数据。

      所以首先清理(删除标点符号,不重要的单词),标记(打破单个单词句子)然后也许你可以使用fuzzywuzzy 来帮助找到更好的匹配。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2013-10-10
        • 2013-08-15
        • 1970-01-01
        • 2013-09-13
        • 1970-01-01
        • 2011-10-04
        相关资源
        最近更新 更多