【发布时间】:2016-07-08 19:06:55
【问题描述】:
一种特殊的自然语言实践是使用 WordNet 计算两个单词之间的相似度。我从以下 python 代码开始我的问题:
from nltk.corpus import wordnet
sport = wordnet.synsets("sport")[0]
badminton = wordnet.synsets("badminton")[0]
print(sport.wup_similarity(badminton))
我们将得到 0.8421
现在,如果我按以下方式查找“haha”和“lol”会怎样:
haha = wordnet.synsets("haha")
lol = wordnet.synsets("lol")
print(haha)
print(lol)
我们会得到
[]
[]
那么我们不能考虑它们之间的相似性。在这种情况下我们能做什么?
【问题讨论】:
-
你想计算什么样的相似度?语义相似度?如果没有某种词义数据库(如 WordNet),您将无法计算它。
-
什么意思?我已经使用了 WordNet,相似度是使用 Wu-Palmer Similarity 计算的。请仔细看代码。
-
看看STS任务:alt.qcri.org/semeval2016/task1还有个不要脸的插件:github.com/alvations/stasis
标签: python nltk similarity