【发布时间】:2012-02-05 19:25:07
【问题描述】:
我有一个包含数据向量的文件,其中每一行都包含一个以逗号分隔的值列表。我想知道如何使用 mahout 对这些数据执行 k-means 聚类。 wiki 中提供的示例提到了创建 sequenceFiles,但是我不确定是否需要进行某种类型的转换才能获得这些 sequenceFiles。
【问题讨论】:
-
您是否需要使用 mahout 来完成这项工作,或者其他什么都可以?有很多集群 api、工具、示例代码等可以很容易地做到这一点。如果您只有一个文件,您的数据点可能会非常小,理论上 Mahout 是针对大规模问题的。
-
我正在从这里查看聚类数据集:grouplens.org/node/73 最大的数据集可能包含 10,000 x 72,000 个数据点。这就是为什么我认为 mahout 可能是最好的,当我尝试加载较小的数据集时 WEKA 崩溃
-
试试glaros.dtc.umn.edu/gkhome/software,Weka也有SDK。 k-means 在大多数语言中实现起来非常简单,所以我相信你可以在 google 上找到一些代码 sn-ps