【问题标题】:Sklearn cosine similarity for strings, Python字符串的Sklearn余弦相似度,Python
【发布时间】:2017-12-09 20:46:53
【问题描述】:

我正在编写一个算法来检查一个字符串与另一个字符串的相等程度。我正在使用 Sklearn 余弦相似度。

我的代码是:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

example_1 = ("I am okey", "I am okeu")
example_2 = ("I am okey", "I am crazy")

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(example_1)
result_cos = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
print(result_cos[0][1])

为 example_1 运行此代码,打印 0.336096927276。为 example_2 运行它,它会打印相同的分数。两种情况下的结果都是一样的,因为只有一个不同的词。

我想要为 example_1 获得更高的分数,因为不同的单词“okey vs okeu”只有一个不同的字母。相比之下,在 example_2 中有两个完全不同的词“okey vs crazy”。

我的代码如何考虑到在某些情况下不同的词并不完全不同?

【问题讨论】:

    标签: python scikit-learn string-matching


    【解决方案1】:

    对于短字符串,Levenshtein distance 可能会产生比基于单词的余弦相似度更好的结果。下面的算法改编自Wikibooks。由于这是一个距离度量,因此分数越小越好。

    def levenshtein(s1, s2):
        if len(s1) < len(s2):
            s1, s2 = s2, s1
    
        if len(s2) == 0:
            return len(s1)
    
        previous_row = range(len(s2) + 1)
        for i, c1 in enumerate(s1):
            current_row = [i + 1]
            for j, c2 in enumerate(s2):
                insertions = previous_row[j + 1] + 1
                deletions = current_row[j] + 1
                substitutions = previous_row[j] + (c1 != c2)
                current_row.append(min(insertions, deletions, substitutions))
            previous_row = current_row
    
        return previous_row[-1]/float(len(s1))
    
    example_1 = ("I am okey", "I am okeu")
    example_2 = ("I am okey", "I am crazy")
    
    print(levenshtein(*example_1))
    print(levenshtein(*example_2))                                   
    

    【讨论】:

    • 好建议,但from leven import levenshtein 会更容易。
    • 我的字符串是产品标题。我正在尝试结合 3 个不同的指标。 Levenshtein、余弦和 jaro winkler,我正在计算这 3 个指标的平均值。
    猜你喜欢
    • 2020-08-12
    • 1970-01-01
    • 2020-10-25
    • 2021-02-23
    • 2011-01-01
    • 2014-11-19
    • 2019-09-01
    • 1970-01-01
    相关资源
    最近更新 更多