【发布时间】:2015-04-12 18:08:16
【问题描述】:
我目前正在研究文档聚类。 我想在我的数据集(文本文档)上运行 Java 中的 Bisecting KMeans。 任何人都可以提供相同的代码。 最后的运行将在 Hadoop 中使用 MapReduce。
谢谢。
【问题讨论】:
标签: hadoop mapreduce cluster-analysis k-means hierarchical-clustering
我目前正在研究文档聚类。 我想在我的数据集(文本文档)上运行 Java 中的 Bisecting KMeans。 任何人都可以提供相同的代码。 最后的运行将在 Hadoop 中使用 MapReduce。
谢谢。
【问题讨论】:
标签: hadoop mapreduce cluster-analysis k-means hierarchical-clustering
您是否查看过Mahout 或Spark MLLib 来编写您的聚类算法?这些是 Hadoop 上机器学习的事实行业标准。这两个库都有 K-Means(以及许多其他库),但它们都没有发布版本的 Bisecting K-Means。在 Github 的 Spark 项目中有一个 pull request 为 Hierarchical K-Means (SPARK-2429) 开放(不确定这是否与 Bisecting K-Means 相同)。
我想说的另一点是让您考虑使用 Spark 而不是 MapReduce。对于 K-Means 等迭代算法,Spark 的性能要高得多。
【讨论】: