使用 MapReduce 进行聚类设计答案

【问题标题】：The design of Clustering using MapReduce使用 MapReduce 进行聚类设计
【发布时间】：2014-11-06 03:48:33
【问题描述】：

我有一个类似这样的矩阵：ItemA、ItemB、Similarity。

我希望它使用Kmeans 等算法通过MapReduce 对数据集进行聚类。但我不知道我应该使用多少个MapReduces 以及如何设计它们。

【问题讨论】：

听起来您是在寻找教程而不是问具体问题
您的数据是什么样的？你有相似度矩阵还是有原始数据？你的目标结果是什么？你想集群什么？你提到K-Means，你知道你想要多少个中心吗？如果没有，你知道在运行 K-Means 之前是否需要一个分区算法吗？如果是，是哪一个？你在互联网上读过那些东西吗？你想使用任何对你有帮助的框架吗？ many MapReduces 是什么意思？这个问题太不清楚了，我很惊讶你可以为此投票。

【解决方案1】：

您不能将 k-means 与相似矩阵一起使用。故事结束：k-means 需要与 means 的相似性，而不是实例之间的相似性。但是还有其他算法。不幸的是，例如 PAM 的扩展性非常差，在集群上运行它也没有回报。

除此之外，只是实验。例如，选择尽可能多的减少核心；并选择您的集群可以支持的尽可能多的映射器（除非您的数据太小 - 每个映射器应该有几个 MB 以使启动成本得到回报）

但我认为你还没有准备好回答这个问题。首先弄清楚你想做什么，然后如何设置可能出现或根本不出现的参数..

【讨论】：