文本相似度计算方法汇总:文本相似度计算方法详解


1 基本思路

定义:

  1. 假设字符串SAS_A,共mm 位,即 SA[1]S_A[1]SB[m]S_B[m]
  2. 字符串 SBS_B,共nn位,即SB[1]S_B[1]SB[n]S_B[n]
  3. D[i][j]D[i][j]表示 SA[1...i]S_A[1...i] 转换为 SB[1...j]S_B[1...j] 的编辑距离

思路:
使用递归和动态规划的思想,
如果SA[i]==SB[j]S_A[i] == S_B[j], 那么 D[i][j]=D[i1][j1]D[i][j]=D[i-1][j-1]
如果SA[i]S_A[i]SB[j]S_B[j]不等,那么SA[1...i]S_A[1...i] 转换为 SB[1...j]S_B[1...j] 的编辑距离可能由下面种已经发生的情况得到:

  1. D[i][j1]D[i][j-1] + 1,即SA[1...i]S_A[1...i] 转换为 SB[1...j1]S_B[1...j - 1] 的编辑距离,加1
  2. D[i1][j]D[i-1][j] + 1,即SA[1...i1]S_A[1...i-1] 转换为 SB[1...j]S_B[1...j] 的编辑距离,加1
  3. D[i1][j1]D[i-1][j-1] + 1,即SA[1...i1]S_A[1...i-1] 转换为 SB[1...j1]S_B[1...j-1] 的编辑距离,加1

针对不相等的情况,只要取上述三种结果的最小值即为 SA[1...i]S_A[1...i] 转换为 SB[1...j]S_B[1...j] 的编辑距离

如果思路可以想通,那么可以继续往下看算法的实现,不太理解的话先深入理解。

2 算法基本步骤

  1. 构造 一个[m+1][n+1][m+1][n+1]的矩阵,用来记录D[i][j]D[i][j]

下图将使用SA="jerry"S_A="jerry"SB="jary"S_B="jary" 做为范例, m=5m=5, n=4n=4

文本相似度——编辑距离
3. 初始化矩阵DD,第一行0n0~n,第一列为0m0~m, 如下图所示:

文本相似度——编辑距离
4. 从D[1][1]D[1][1]开始,如果SA[i]==SB[j]S_A[i]==S_ B[j],那么D[i][j]=D[i1][j1]D[i][j]=D[i-1][j-1], 如果不相等,那么D[i][j]=minD[i][j1],D[i1][j],D[i1][j1]+1D[i][j]=\min{D[i][j-1],D[i-1][j],D[i-1][j-1]} + 1,

如下图1中SA[1]==SB[1]=="j"S_A[1]==S_ B[1]=="j" ,那么D[1][1]=D[0][0]=0D[1][1]=D[0][0]=0;
SA[1]!=SB[2]S_A[1]!=S_ B[2], 那么D[1][2]=minD[1][1],D[0][2],D[0][1]+1=D[1][1]+1=1D[1][2]=\min{D[1][1],D[0][2],D[0][1]} + 1=D[1][1]+ 1=1,
文本相似度——编辑距离
文本相似度——编辑距离

  1. 依次遍历类推,SA[1...m]S_A[1...m] 转换为 SB[1...n]S_B[1...n] 的编辑距离即为D[m][n]D[m][n]

如下图所示,“jerry” 转化为"jary"的编辑距离为2.
文本相似度——编辑距离

3 算法实现

3.1 递归

递归实现1

int edit_distance(char *a, char *b, int i, int j)
{
    if (j == 0) {
        return i;
    } else if (i == 0) {
        return j;
    // 算法中 a, b 字符串下标从 1 开始,c 语言从 0 开始,所以 -1
    } else if (a[i-1] == b[j-1]) {
        return edit_distance(a, b, i - 1, j - 1);
    } else {
        return min_of_three(edit_distance(a, b, i - 1, j) + 1,
                            edit_distance(a, b, i, j - 1) + 1,
                            edit_distance(a, b, i - 1, j - 1) + 1);
    }
}

edit_distance(stra, strb, strlen(stra), strlen(strb));

使用递归性能低下,有很多子问题已经求解过,所以使用动态规划

3.2 动态规划

动态规划实现2

int edit_distance(char *a, char *b)
{
    int lena = strlen(a);
    int lenb = strlen(b);
    int d[lena+1][lenb+1];
    int i, j;

    for (i = 0; i <= lena; i++) {
        d[i][0] = i;
    }
    for (j = 0; j <= lenb; j++) {
        d[0][j] = j;
    }

    for (i = 1; i <= lena; i++) {
        for (j = 1; j <= lenb; j++) {
            // 算法中 a, b 字符串下标从 1 开始,c 语言从 0 开始,所以 -1
            if (a[i-1] == b[j-1]) {
                d[i][j] = d[i-1][j-1];
            } else {
                d[i][j] = min_of_three(d[i-1][j]+1, d[i][j-1]+1, d[i-1][j-1]+1);
            }
        }
    }

    return d[lena][lenb];
}

3.3 Python 使用包

使用之前使用pip安装Levenshtein

pip install python-Levenshtein

import Levenshtein
string_1 = "jerry"
string_2 = "jary"
Levenshtein.distance(','.join(string_1), ','.join(string_2))

  1. https://www.dreamxu.com/books/dsa/dp/edit-distance.html ↩︎

  2. https://www.dreamxu.com/books/dsa/dp/edit-distance.html ↩︎

相关文章:

  • 2021-08-03
  • 2021-12-28
  • 2022-12-23
  • 2021-11-07
  • 2022-12-23
  • 2021-09-09
  • 2021-11-06
猜你喜欢
  • 2021-08-19
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-09-15
  • 2021-10-22
  • 2021-06-10
相关资源
相似解决方案