【发布时间】:2017-03-05 14:05:14
【问题描述】:
因此,例如,我输入了一些具有某种语义含义的句子,作为输出,我得到了一些最接近(余弦距离)单词(主要是单个单词)的列表。
但我想了解我的句子属于哪个集群,并计算每个单词与它的距离。并从句子中消除无意义的单词。
例如:
“我想买个披萨”;
“披萨”:0.99123
“买”:0.7834
“想要”:0.1443
如何在没有任何 C 编码的情况下开箱即用地实现这样的要求?
也许我需要为此计算余弦距离方程?
谢谢!
【问题讨论】:
因此,例如,我输入了一些具有某种语义含义的句子,作为输出,我得到了一些最接近(余弦距离)单词(主要是单个单词)的列表。
但我想了解我的句子属于哪个集群,并计算每个单词与它的距离。并从句子中消除无意义的单词。
例如:
“我想买个披萨”;
“披萨”:0.99123
“买”:0.7834
“想要”:0.1443
如何在没有任何 C 编码的情况下开箱即用地实现这样的要求?
也许我需要为此计算余弦距离方程?
谢谢!
【问题讨论】:
您似乎需要主题建模而不是 word2vec。 Word2vec 用于捕获本地信息,直接使用它来对单词或句子进行分类或聚类并不是一个好主意。
另一个方面可以是停用词删除,因为您提到的是无意义的词。顺便说一句,它们并非毫无意义,它们实际上与任何主题都没有对齐。所以,你认为它们没有意义。
我认为您应该使用 LDA 主题建模方法,并且您不需要实现任何东西,因为 LDA 有很多实现。
【讨论】: