【问题标题】:fasttext pre trained sentences similarityfasttext 预训练句子相似度
【发布时间】:2020-03-29 16:54:50
【问题描述】:

我想使用 fasttext 预训练模型来计算相似度 一组句子之间的一个句子。 谁能帮我? 最好的方法是什么?

我通过训练一个 tfidf 模型来计算句子之间的相似度。写这样的代码。 是否可以更改它并使用 fasttext 预训练模型?例如使用向量来训练一个 tfidf 模型?

def generate_tfidf_model(sentences):
    print("generating TfIdf model")
    texts = [[sentence for sentence in doc.split()] for doc in sentences]
    dictionary = gensim.corpora.Dictionary(texts)    
    feature_cnt = len(dictionary.token2id)
    mycorpus = [dictionary.doc2bow(doc, allow_update=True) for doc in texts]
    tfidf_model = gensim.models.TfidfModel(mycorpus)
    index = gensim.similarities.SparseMatrixSimilarity(tfidf_model[mycorpus]
                                                        , num_features = feature_cnt)
    return tfidf_model, index, dictionary

def query_search(query, tfidf_model, index, dictionary):
    query = normal_stemmer_sentence(query)
    query_vector = dictionary.doc2bow(query.split())
    similarity = index[tfidf_model[query_vector]]
    return similarity

【问题讨论】:

    标签: python nlp information-retrieval fasttext sentence-similarity


    【解决方案1】:

    如果你可以使用词嵌入,我认为计算 TfIdf 是不必要的。

    一个简单但有效的方法包括:

    1. 使用针对您的语言的预训练词嵌入计算代表您的两个字符串的两个向量(例如 FastText - get_sentence_vector https://fasttext.cc/docs/en/python-module.html#model-object

    2. 计算两个向量之间的余弦相似度(1:相等的字符串;0:真的 不同的字符串;阅读https://masongallo.github.io/machine/learning,/python/2016/07/29/cosine-similarity.html)。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-01-22
    • 2021-12-19
    • 2021-03-29
    • 2022-01-16
    • 1970-01-01
    相关资源
    最近更新 更多