【发布时间】:2018-03-03 01:24:34
【问题描述】:
这里是初学者 NLP 问题:
.similiarity 方法是如何工作的?
哇 spaCy 太棒了!它的 tfidf 模型可能更容易预处理,但是 w2v 只有一行代码(token.vector)?! - 太棒了!
在他的10 line tutorial on spaCyandrazhribernik 中向我们展示了可以在令牌、发送、单词块和文档上运行的 .similarity 方法。
在nlp = spacy.load('en') 和doc = nlp(raw_text) 之后
我们可以在标记和块之间进行 .similarity 查询。
但是,这个.similarity 方法在幕后计算了什么?
SpaCy 已经拥有非常简单的 .vector,它计算从 GloVe 模型训练的 w2v 向量(.tfidf 或 .fasttext 方法有多酷?)。
模型相似度模型是简单地计算这两个 w2v-GloVe-vector 之间的余弦相似度还是做其他事情? documentation 中的具体情况尚不清楚;任何帮助表示赞赏!
【问题讨论】:
-
更新:从 v2.0.1.0 开始,它超级容易加载到其他预训练向量中(例如 Facebook 的 FastText)。谢谢 spaCy 伙计们! spacy.io/usage/vectors-similarity#custom-loading-other
标签: python machine-learning nlp word2vec spacy