【问题标题】:Word2vec: distangling semantic from syntacticWord2vec:从句法中分离语义
【发布时间】:2018-03-10 13:04:38
【问题描述】:

我想使用预训练词向量(例如,维基百科上的 fasttest)来查找一组词的集群。但是,在单词列表中,我有诸如“善良”、“善良”、“善良”之类的词语,它们属于不同的集群。有时,具有相似词性的单词会聚集在一起。我想知道我怎样才能拥有只捕捉意义的词向量?

【问题讨论】:

  • 请提供一些你想做的好例子
  • 我有一个单词列表(例如,'kind'、'kindness'、'honest'、'honesty'、'kindly')我从 fasttext 中找到每个单词的向量,减少维度向量空间,并在其顶部进行 kmeans 聚类。我期待像善良,善良和善良这样的词在同一个集群中。但是,具有相似词性的单词会转到同一个集群。
  • 您是否尝试过不降维的聚类。你有没有用你感兴趣的词对检查普通的欧几里得距离
  • 我尝试了不降维但结果并不令人信服。欧几里得距离是什么意思?
  • 向量之间的距离

标签: nlp word2vec


【解决方案1】:

您可以在使用 word2vec 之前对单词进行词形还原或词干化。

stemming 库已经实现了几个这样的算法。

【讨论】:

  • 词干提取的问题在于它将单词转换为单词的根,例如,“house”和“housing” -> “hous”,这在预训练的 word2vec 模型中不存在。
  • 然后使用词形还原器
猜你喜欢
  • 2019-04-23
  • 2015-10-10
  • 1970-01-01
  • 2017-10-31
  • 2021-05-07
  • 1970-01-01
  • 2016-07-28
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多