【问题标题】:Damerau–Levenshtein distance algorithm in MySQL as a functionMySQL 中的 Damerau–Levenshtein 距离算法作为函数
【发布时间】:2012-12-23 08:39:08
【问题描述】:

有谁知道 Damerau–Levenshtein 距离算法的 MySQL 实现作为一个存储过程/函数,它将单个指定的字符串作为参数并在特定表的特定字段中查找字符串的模糊匹配?
我找到了各种比较两个指定字符串并计算距离的过程/函数代码示例,但首先这只是 Levenshtein 距离算法,而不是 Damerau-Levenshtein 算法,其次,我不想比较两个字符串但在我选择的字段中找到与我指定的字符串相似的模糊匹配项。

我基本上是在尝试在 MySQL 中组合一个模糊关键字搜索器。

【问题讨论】:

  • 我需要一个更灵活的算法,不仅限于英文,而且可以处理换位。 Soundex 似乎返回了很多错误的结果。
  • 我认为 Double Metaphone 也是为名称设计的,而不是大文本。我的搜索字段包含大量文本。
  • Waleed 评论中的链接断开,试试这个:dev.mysql.com/doc/refman/5.6/en/…

标签: mysql algorithm levenshtein-distance


【解决方案1】:

这似乎是一个老话题,但是如果有人寻找 Damerau-Levenshtein 距离的 MYSQL 实现,这里是我自己的实现(基于在本网站其他地方找到的一个简单的 Levenshtein),它适用于小于255 个字符长。第三个参数可以设置为 FALSE 来检索基本的 Levenshtein 距离:

CREATE FUNCTION levenshtein( s1 VARCHAR(255), s2 VARCHAR(255), dam BOOL)
RETURNS INT
DETERMINISTIC
BEGIN
    DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
    DECLARE s1_char, s2_char CHAR;
    -- max strlen=255
    DECLARE cv0, cv1, cv2 VARBINARY(256);
    SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0;
    IF s1 = s2 THEN
        RETURN 0;
    ELSEIF s1_len = 0 THEN
        RETURN s2_len;
    ELSEIF s2_len = 0 THEN
        RETURN s1_len;
    ELSE
        WHILE j <= s2_len DO
            SET cv1 = CONCAT(cv1, UNHEX(HEX(j))), j = j + 1;
        END WHILE;
        WHILE i <= s1_len DO
            SET s1_char = SUBSTRING(s1, i, 1), c = i, cv0 = UNHEX(HEX(i)), j = 1;
            WHILE j <= s2_len DO
                SET c = c + 1;
                SET s2_char = SUBSTRING(s2, j, 1);
                IF s1_char = s2_char THEN
                    SET cost = 0; ELSE SET cost = 1;
                END IF;
                SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost;
                IF c > c_temp THEN SET c = c_temp; END IF;
                SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
                IF c > c_temp THEN SET c = c_temp; END IF;
                IF dam THEN
                    IF i>1 AND j>1 AND s1_char = SUBSTRING(s2, j-1, 1) AND s2_char = SUBSTRING(s1, i-1, 1) THEN
                        SET c_temp = CONV(HEX(SUBSTRING(cv2, j-1, 1)), 16, 10) + 1;
                        IF c > c_temp THEN SET c = c_temp; END IF;
                    END IF;
                END IF;
                SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
            END WHILE;
            IF dam THEN SET CV2 = CV1; END IF;
            SET cv1 = cv0, i = i + 1;
        END WHILE;
    END IF;
    RETURN c;
END

【讨论】:

    【解决方案2】:

    MySQL Levenshtein and Damerau-Levenshtein UDF’s 你有这个算法的几个实现。

    【讨论】:

    • 谢谢。查看有关如何使用它们的示例,它似乎仍在比较两个指定的字符串。对吗?
    • 这个算法在en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance中有很好的描述。
    • UDF 安装过程对我不起作用。如果我做 CREATE FUNCTION damlev RETURNS INTEGER SONAME 'damlev.dll';我得到错误代码:1126。无法打开共享库“damlev.dll”(错误号:126 找不到指定的模块。)
    • 实际上让它工作了,所以会玩弄它。感谢您的链接。
    • 其实你知道我如何使用 damlev 函数在一个距离为 5 或更小的字段中搜索字符串吗?在提供的链接上,有一个使用 Levenshtein 函数 SELECT * FROM mytable WHERE Levenshtein("cow",mytable.field)
    【解决方案3】:

    Github 正在开发修改 Sean Collins 代码,使其支持 UTF-8 并且不区分大小写。

    例子:

    mysql> select damlevlim('camión', 'çamion', 6);
    
    +--------------------------------------+
    | damlevlim('camión', 'çamion', 6) |
    +--------------------------------------+
    |                                    0 |
    +--------------------------------------+
    1 row in set (0.00 sec)
    

    这在进行模糊匹配时特别有用。

    mysql> select word,damlevlim(word, 'camion') as dist from wordslist where damlevlim(word, 'camion', 7)<1 limit 2;
    
    +--------+------+
    | word   | dist |
    +--------+------+
    | camión |    0 |
    | camios |    1 |
    +--------+------+
    2 row in set (0.00 sec)
    

    【讨论】:

      猜你喜欢
      • 2014-04-14
      • 1970-01-01
      • 2011-04-19
      • 1970-01-01
      • 1970-01-01
      • 2023-03-25
      • 1970-01-01
      • 1970-01-01
      • 2011-08-27
      相关资源
      最近更新 更多