如何使用 word2vec 找到文本中最有意义的单词？答案

【问题标题】：How to find the most meaningful words in the text with using word2vec?如何使用 word2vec 找到文本中最有意义的单词？
【发布时间】：2017-03-05 14:05:14
【问题描述】：

因此，例如，我输入了一些具有某种语义含义的句子，作为输出，我得到了一些最接近（余弦距离）单词（主要是单个单词）的列表。

但我想了解我的句子属于哪个集群，并计算每个单词与它的距离。并从句子中消除无意义的单词。

例如：

“我想买个披萨”；

“披萨”：0.99123

“买”：0.7834

“想要”：0.1443

如何在没有任何 C 编码的情况下开箱即用地实现这样的要求？

也许我需要为此计算余弦距离方程？

谢谢！

【问题讨论】：

标签： nlp word2vec

【解决方案1】：

您似乎需要主题建模而不是 word2vec。 Word2vec 用于捕获本地信息，直接使用它来对单词或句子进行分类或聚类并不是一个好主意。

另一个方面可以是停用词删除，因为您提到的是无意义的词。顺便说一句，它们并非毫无意义，它们实际上与任何主题都没有对齐。所以，你认为它们没有意义。

我认为您应该使用 LDA 主题建模方法，并且您不需要实现任何东西，因为 LDA 有很多实现。

【讨论】：