【发布时间】:2019-02-02 02:41:34
【问题描述】:
我想弄清楚我是否信任 SpaCy 的相似函数,但我感到很困惑。这是我的玩具示例:
import spacy
nlp = spacy.load('en')
doc1 = nlp(u'Unsalted butter')
doc2 = nlp(u'babi carrot peel babi carrot grim french babi fresh babi roundi fresh exot petit petit peel shred carrot dole shred')
doc1.similarity(doc2)
我得到 0.64 的相似度。两个没有重叠标记的句子怎么会这么高?有人可以向我解释一下吗?谢谢!
【问题讨论】:
-
你用的是哪个英文型号?
-
相似性使用词向量,而不仅仅是标记。看起来 SpaCy 可能发现了一些相似之处,因为这两个句子都谈论了一些食物。
-
查看how the .similarity() method in SpaCy is computed上关于stackexchange交叉验证的相关讨论
-
它们都包含食物,因此在这方面它们是相似的。试试“唐纳德特朗普是美国总统。想一想”。应该得到一个较低的分数...
标签: spacy