【发布时间】:2015-01-14 09:43:45
【问题描述】:
我正在处理文本聚类。我想选择特定文档(作为向量)作为 k-means 的 centroID。
我已经使用 Mahout 为我的数据集创建了 TF-IDF,我想从 TFIDF 向量中选择初始集群。
有人知道如何在 Mahout 中指定初始质心吗?
【问题讨论】:
-
Mahout 有内置的质心选择,不是吗?
-
是的,Mahout 可以随机选择质心或使用 Canopy,但我想手动选择它们。
-
它还有一个手动指定它们的选项。
标签: cluster-analysis mahout k-means text-mining tf-idf