【发布时间】:2019-06-21 23:43:30
【问题描述】:
根据我在 stackoverflow 上找到的几篇文章(例如 Why does word2Vec use cosine similarity?),在我们训练了 word2vec(CBOW 或 Skip-gram)模型之后计算两个词向量之间的余弦相似度是一种常见的做法。但是,这对我来说似乎有点奇怪,因为该模型实际上是使用点积作为相似度得分进行训练的。这方面的一个证据是,我们在训练后得到的词向量的范数实际上是有意义的。那么为什么人们在计算两个词之间的相似度时仍然使用余弦相似度而不是点积呢?
【问题讨论】:
标签: nlp word2vec cosine-similarity word-embedding dot-product