如何使用 Mahout 流式传输 K-Means答案

【问题标题】：How to use Mahout Streaming K-Means如何使用 Mahout 流式传输 K-Means
【发布时间】：2013-06-20 18:31:57
【问题描述】：

我看到 mahout 中有一个新的 K-Means 实现，称为 Streaming-Kmeans，它实现了 k-means 聚类，无需链式 Mapper-Reducer 循环：

https://github.com/dfilimon/mahout/tree/epigrams

我没有找到任何关于它在任何地方使用的文章。谁能指出任何有用的链接，其中有一些关于如何使用的代码示例。

【问题讨论】：

这可能有助于issues.apache.org/jira/browse/MAHOUT-1154
在此期间你有没有发现什么有用的资源可以推荐给我？
那次我实际上切换到了 Pig UDF 并编写了自定义 KMeans 实现。后来我们搬到了 Spark。
好的，谢谢您的回答。我不敢相信我找不到任何使用它的例子......

【解决方案1】：

StreamingKMeans 是 mahout .8 中的一项新功能。有关其算法的更多详细信息，请参见： N. Ailon、R. Jaiswal、C. Monteleoni 的“流式 k 均值近似” http://books.nips.cc/papers/files/nips22/NIPS2009_1085.pdf M. Shindler、A. Wong、A. Meyerson 的“大型数据集的快速准确 k 均值”， http://books.nips.cc/papers/files/nips24/NIPS2011_1271.pdf

正如你所提到的，没有关于它的使用的文章。与其他版本的聚类算法一样，有一个驱动程序，您可以将一些配置参数作为字符串数组传递，它将对您的数据进行聚类：

String[] args1 = new String[] {"-i","/home/name/workspace/XXXXX-vectors/tfidf-vectors","-o","/home/name/workspace/XXXXX-vectors/tfidf-vectors/SKM-Main-result/","--estimatedNumMapClusters","200","--searchSize","2","-k","12", "--numBallKMeansRuns","3",  "--distanceMeasure","org.apache.mahout.common.distance.CosineDistanceMeasure"};

StreamingKMeansDriver.main(args1);

为了获取重要参数的描述，只需将“-iiii”之类的错误作为第一个参数。它将显示参数、它们的描述和默认值。

但是如果你不想这样使用它，只需阅读 StreamingKMeansMapper、StreamingKmeansReducer、StreamingKmeansThread，这 3 个类代码可以帮助你了解算法的用法并根据需要对其进行定制。 Mapper 使用 StreamingKMeans 生成估计的输入数据集群。 for get k final cluster Reducer 获取中间点（上一步生成的质心），并通过使用 ballKmeans 将这些中间点聚类到 K 个集群。

【讨论】：

现在是否有任何关于在 Mahout 中流式传输 kmeans 的额外资源？

【解决方案2】：

以下是运行 Streaming k-means 的步骤：

通过 seq2sparse 生成稀疏向量。
mahout 流式kmeans -i "" -o "" --tempDir "" -ow -sc org.apache.mahout.math.neighborhood.FastProjectionSearch -k -km

-k = 簇数 -km = (k * log(n)) 其中 k = 否。簇和 n = 否。要聚类的数据点数，将其四舍五入到最接近的整数

您可以选择使用 FastProjectionSearch 或 ProjectionSearch 或 LocalitySensitiveHashSearch 作为 -sc 参数。

【讨论】：