文本相似度——编辑距离

文章目录

1 基本思路
2 算法基本步骤
3 算法实现

3.1 递归
3.2 动态规划
3.3 Python 使用包

1 基本思路

定义：

假设字符串 $S_A$ ，共 $m$ 位，即 $S_A[1]$ 至 $S_B[m]$

字符串 $S_B$ ，共 $n$ 位，即 $S_B[1]$ 至 $S_B[n]$

$D[i][j]$ 表示 $S_A[1...i]$ 转换为 $S_B[1...j]$ 的编辑距离

思路：
使用递归和动态规划的思想，
如果 $S_A[i] == S_B[j]$ ，那么 $D[i][j]=D[i-1][j-1]$
如果 $S_A[i]$ 与 $S_B[j]$ 不等，那么 $S_A[1...i]$ 转换为 $S_B[1...j]$ 的编辑距离可能由下面种已经发生的情况得到：

$D[i][j-1]$ + 1，即 $S_A[1...i]$ 转换为 $S_B[1...j - 1]$ 的编辑距离，加1
$D[i-1][j]$ + 1，即 $S_A[1...i-1]$ 转换为 $S_B[1...j]$ 的编辑距离，加1
$D[i-1][j-1]$ + 1，即 $S_A[1...i-1]$ 转换为 $S_B[1...j-1]$ 的编辑距离，加1

针对不相等的情况，只要取上述三种结果的最小值即为 $S_A[1...i]$ 转换为 $S_B[1...j]$ 的编辑距离

如果思路可以想通，那么可以继续往下看算法的实现，不太理解的话先深入理解。

2 算法基本步骤

构造一个 $[m+1][n+1]$ 的矩阵，用来记录 $D[i][j]$ ，

下图将使用 $S_A="jerry"$ 、 $S_B="jary"$ 做为范例， $m=5$ , $n=4$ 。

文本相似度——编辑距离
3. 初始化矩阵 $D$ ，第一行 $0～n$ ，第一列为 $0～m$ ，如下图所示：

文本相似度——编辑距离
4. 从 $D[1][1]$ 开始，如果 $S_A[i]==S_ B[j]$ ，那么 $D[i][j]=D[i-1][j-1]$ ，如果不相等，那么 $D[i][j]=\min{D[i][j-1],D[i-1][j],D[i-1][j-1]} + 1$ ,

如下图1中 $S_A[1]==S_ B[1]=="j"$ ，那么 $D[1][1]=D[0][0]=0$ ;
$S_A[1]!=S_ B[2]$ , 那么 $D[1][2]=\min{D[1][1],D[0][2],D[0][1]} + 1=D[1][1]+ 1=1$ ,
文本相似度——编辑距离

依次遍历类推， $S_A[1...m]$ 转换为 $S_B[1...n]$ 的编辑距离即为 $D[m][n]$

如下图所示，“jerry” 转化为"jary"的编辑距离为2.
文本相似度——编辑距离

3 算法实现

3.1 递归

递归实现¹

int edit_distance(char *a, char *b, int i, int j)
{
    if (j == 0) {
        return i;
    } else if (i == 0) {
        return j;
    // 算法中 a, b 字符串下标从 1 开始，c 语言从 0 开始，所以 -1
    } else if (a[i-1] == b[j-1]) {
        return edit_distance(a, b, i - 1, j - 1);
    } else {
        return min_of_three(edit_distance(a, b, i - 1, j) + 1,
                            edit_distance(a, b, i, j - 1) + 1,
                            edit_distance(a, b, i - 1, j - 1) + 1);
    }
}

edit_distance(stra, strb, strlen(stra), strlen(strb));

使用递归性能低下，有很多子问题已经求解过，所以使用动态规划

3.2 动态规划

动态规划实现²

int edit_distance(char *a, char *b)
{
    int lena = strlen(a);
    int lenb = strlen(b);
    int d[lena+1][lenb+1];
    int i, j;

    for (i = 0; i <= lena; i++) {
        d[i][0] = i;
    }
    for (j = 0; j <= lenb; j++) {
        d[0][j] = j;
    }

    for (i = 1; i <= lena; i++) {
        for (j = 1; j <= lenb; j++) {
            // 算法中 a, b 字符串下标从 1 开始，c 语言从 0 开始，所以 -1
            if (a[i-1] == b[j-1]) {
                d[i][j] = d[i-1][j-1];
            } else {
                d[i][j] = min_of_three(d[i-1][j]+1, d[i][j-1]+1, d[i-1][j-1]+1);
            }
        }
    }

    return d[lena][lenb];
}

3.3 Python 使用包

使用之前使用pip安装Levenshtein

pip install python-Levenshtein

import Levenshtein
string_1 = "jerry"
string_2 = "jary"
Levenshtein.distance(','.join(string_1), ','.join(string_2))

https://www.dreamxu.com/books/dsa/dp/edit-distance.html ↩︎
https://www.dreamxu.com/books/dsa/dp/edit-distance.html ↩︎