Word2vec：从句法中分离语义答案

【问题标题】：Word2vec: distangling semantic from syntacticWord2vec：从句法中分离语义
【发布时间】：2018-03-10 13:04:38
【问题描述】：

我想使用预训练词向量（例如，维基百科上的 fasttest）来查找一组词的集群。但是，在单词列表中，我有诸如“善良”、“善良”、“善良”之类的词语，它们属于不同的集群。有时，具有相似词性的单词会聚集在一起。我想知道我怎样才能拥有只捕捉意义的词向量？

【问题讨论】：

请提供一些你想做的好例子
我有一个单词列表（例如，'kind'、'kindness'、'honest'、'honesty'、'kindly'）我从 fasttext 中找到每个单词的向量，减少维度向量空间，并在其顶部进行 kmeans 聚类。我期待像善良，善良和善良这样的词在同一个集群中。但是，具有相似词性的单词会转到同一个集群。
您是否尝试过不降维的聚类。你有没有用你感兴趣的词对检查普通的欧几里得距离
我尝试了不降维但结果并不令人信服。欧几里得距离是什么意思？
向量之间的距离

【解决方案1】：

您可以在使用 word2vec 之前对单词进行词形还原或词干化。

stemming 库已经实现了几个这样的算法。

【讨论】：