对文档聚类进行二等分 K 均值

【问题标题】：Bisecting KMeans for Document Clustering对文档聚类进行二等分 K 均值
【发布时间】：2015-04-12 18:08:16
【问题描述】：

我目前正在研究文档聚类。我想在我的数据集（文本文档）上运行 Java 中的 Bisecting KMeans。任何人都可以提供相同的代码。最后的运行将在 Hadoop 中使用 MapReduce。

谢谢。

【问题讨论】：

标签： hadoop mapreduce cluster-analysis k-means hierarchical-clustering

【解决方案1】：

您是否查看过Mahout 或Spark MLLib 来编写您的聚类算法？这些是 Hadoop 上机器学习的事实行业标准。这两个库都有 K-Means（以及许多其他库），但它们都没有发布版本的 Bisecting K-Means。在 Github 的 Spark 项目中有一个 pull request 为 Hierarchical K-Means (SPARK-2429) 开放（不确定这是否与 Bisecting K-Means 相同）。

我想说的另一点是让您考虑使用 Spark 而不是 MapReduce。对于 K-Means 等迭代算法，Spark 的性能要高得多。

【讨论】：