【发布时间】:2017-06-16 19:37:34
【问题描述】:
我是文本挖掘的新手,这是我的情况。 假设我有一个单词列表 ['car', 'dog', 'puppy', 'vehicle'],我想将单词聚类到 k 个组中,我希望输出为 [['car', 'vehicle' ],['狗','小狗']]。 我首先计算每个成对词的相似度得分,得到一个 4x4 矩阵(在这种情况下)M,其中 Mij 是词 i 和 j 的相似度得分。 将单词转换成数字数据后,我利用不同的聚类库(如sklearn)或自己实现得到单词簇。
我想知道这种方法有意义吗?此外,我如何确定 k 的值?更重要的是,我知道存在不同的聚类技术,我正在考虑是否应该使用 k-means 或 k-medoids 进行词聚类?
【问题讨论】:
-
您要计算什么类型的相似度?字符系列的相似性(例如“rock”与“clock”非常相似)或词义的相似性(例如“dog”与“puppy”非常相似)?
-
@Marcel P 可能是词义相似度
-
你将如何计算? “意义”没有等式。
标签: python nlp cluster-analysis text-mining