【问题标题】:Bisecting KMeans for Document Clustering对文档聚类进行二等分 K 均值
【发布时间】:2015-04-12 18:08:16
【问题描述】:

我目前正在研究文档聚类。 我想在我的数据集(文本文档)上运行 Java 中的 Bisecting KMeans。 任何人都可以提供相同的代码。 最后的运行将在 Hadoop 中使用 MapReduce。

谢谢。

【问题讨论】:

    标签: hadoop mapreduce cluster-analysis k-means hierarchical-clustering


    【解决方案1】:

    您是否查看过MahoutSpark MLLib 来编写您的聚类算法?这些是 Hadoop 上机器学习的事实行业标准。这两个库都有 K-Means(以及许多其他库),但它们都没有发布版本的 Bisecting K-Means。在 Github 的 Spark 项目中有一个 pull request 为 Hierarchical K-Means (SPARK-2429) 开放(不确定这是否与 Bisecting K-Means 相同)。

    我想说的另一点是让您考虑使用 Spark 而不是 MapReduce。对于 K-Means 等迭代算法,Spark 的性能要高得多。

    【讨论】:

      猜你喜欢
      • 2016-03-10
      • 2017-12-09
      • 1970-01-01
      • 2017-03-07
      • 2017-01-15
      • 2014-07-24
      • 2017-02-15
      • 2015-02-09
      相关资源
      最近更新 更多