【问题标题】:How to use Mahout Streaming K-Means如何使用 Mahout 流式传输 K-Means
【发布时间】:2013-06-20 18:31:57
【问题描述】:

我看到 mahout 中有一个新的 K-Means 实现,称为 Streaming-Kmeans,它实现了 k-means 聚类,无需链式 Mapper-Reducer 循环:

https://github.com/dfilimon/mahout/tree/epigrams

我没有找到任何关于它在任何地方使用的文章。谁能指出任何有用的链接,其中有一些关于如何使用的代码示例。

【问题讨论】:

  • 在此期间你有没有发现什么有用的资源可以推荐给我?
  • 那次我实际上切换到了 Pig UDF 并编写了自定义 KMeans 实现。后来我们搬到了 Spark。
  • 好的,谢谢您的回答。我不敢相信我找不到任何使用它的例子......

标签: cluster-analysis mahout k-means


【解决方案1】:

StreamingKMeans 是 mahout .8 中的一项新功能。 有关其算法的更多详细信息,请参见: N. Ailon、R. Jaiswal、C. Monteleoni 的“流式 k 均值近似” http://books.nips.cc/papers/files/nips22/NIPS2009_1085.pdf M. Shindler、A. Wong、A. Meyerson 的“大型数据集的快速准确 k 均值”, http://books.nips.cc/papers/files/nips24/NIPS2011_1271.pdf

正如你所提到的,没有关于它的使用的文章。与其他版本的聚类算法一样,有一个驱动程序,您可以将一些配置参数作为字符串数组传递,它将对您的数据进行聚类:

String[] args1 = new String[] {"-i","/home/name/workspace/XXXXX-vectors/tfidf-vectors","-o","/home/name/workspace/XXXXX-vectors/tfidf-vectors/SKM-Main-result/","--estimatedNumMapClusters","200","--searchSize","2","-k","12", "--numBallKMeansRuns","3",  "--distanceMeasure","org.apache.mahout.common.distance.CosineDistanceMeasure"};

StreamingKMeansDriver.main(args1);

为了获取重要参数的描述,只需将“-iiii”之类的错误作为第一个参数。它将显示参数、它们的描述和默认值。

但是如果你不想这样使用它,只需阅读 StreamingKMeansMapper、StreamingKmeansReducer、StreamingKmeansThread,这 3 个类代码可以帮助你了解算法的用法并根据需要对其进行定制。 Mapper 使用 StreamingKMeans 生成估计的输入数据集群。 for get k final cluster Reducer 获取中间点(上一步生成的质心),并通过使用 ballKmeans 将这些中间点聚类到 K 个集群。

【讨论】:

  • 现在是否有任何关于在 Mahout 中流式传输 kmeans 的额外资源?
【解决方案2】:

以下是运行 Streaming k-means 的步骤:

  1. 通过 seq2sparse 生成稀疏向量。
  2. mahout 流式kmeans -i "" -o "" --tempDir "" -ow -sc org.apache.mahout.math.neighborhood.FastProjectionSearch -k -km

    -k = 簇数 -km = (k * log(n)) 其中 k = 否。簇和 n = 否。要聚类的数据点数,将其四舍五入到最接近的整数

您可以选择使用 FastProjectionSearch 或 ProjectionSearch 或 LocalitySensitiveHashSearch 作为 -sc 参数。

【讨论】:

    猜你喜欢
    • 2014-07-13
    • 2015-04-07
    • 2012-11-01
    • 2012-11-06
    • 2014-04-20
    • 2016-09-21
    • 1970-01-01
    • 2014-05-05
    • 2023-03-03
    相关资源
    最近更新 更多