【发布时间】:2018-03-10 13:04:38
【问题描述】:
我想使用预训练词向量(例如,维基百科上的 fasttest)来查找一组词的集群。但是,在单词列表中,我有诸如“善良”、“善良”、“善良”之类的词语,它们属于不同的集群。有时,具有相似词性的单词会聚集在一起。我想知道我怎样才能拥有只捕捉意义的词向量?
【问题讨论】:
-
请提供一些你想做的好例子
-
我有一个单词列表(例如,'kind'、'kindness'、'honest'、'honesty'、'kindly')我从 fasttext 中找到每个单词的向量,减少维度向量空间,并在其顶部进行 kmeans 聚类。我期待像善良,善良和善良这样的词在同一个集群中。但是,具有相似词性的单词会转到同一个集群。
-
您是否尝试过不降维的聚类。你有没有用你感兴趣的词对检查普通的欧几里得距离
-
我尝试了不降维但结果并不令人信服。欧几里得距离是什么意思?
-
向量之间的距离