如何从 Tf-IDF 向量中选择 K-mean 的初始聚类答案

【问题标题】：How to choose the initial clusters for K-mean from Tf-IDF vectors如何从 Tf-IDF 向量中选择 K-mean 的初始聚类
【发布时间】：2015-01-14 09:43:45
【问题描述】：

我正在处理文本聚类。我想选择特定文档（作为向量）作为 k-means 的 centroID。

我已经使用 Mahout 为我的数据集创建了 TF-IDF，我想从 TFIDF 向量中选择初始集群。

有人知道如何在 Mahout 中指定初始质心吗？

【问题讨论】：

【解决方案1】：

bin/mahout kmeans
-c 输入集群目录
-k 从输入向量中采样的可选初始簇数

如果提供了 -k 参数，则 -c 目录中的所有簇都将被覆盖，并且 -k 随机点将从输入向量中采样成为初始簇中心。

【讨论】：

【解决方案2】：

一种可能是使用Cosine similarity 而不是TF-IDF，方法是查看彼此相距最远的文档。像这样的：

查看this 可能也会有所帮助。

【讨论】：