【问题标题】:The design of Clustering using MapReduce使用 MapReduce 进行聚类设计
【发布时间】:2014-11-06 03:48:33
【问题描述】:

我有一个类似这样的矩阵:ItemAItemBSimilarity

我希望它使用Kmeans 等算法通过MapReduce 对数据集进行聚类。但我不知道我应该使用多少个MapReduces 以及如何设计它们。

【问题讨论】:

  • 听起来您是在寻找教程而不是问具体问题
  • 您的数据是什么样的?你有相似度矩阵还是有原始数据?你的目标结果是什么?你想集群什么?你提到K-Means,你知道你想要多少个中心吗?如果没有,你知道在运行 K-Means 之前是否需要一个分区算法吗?如果是,是哪一个?你在互联网上读过那些东西吗?你想使用任何对你有帮助的框架吗? many MapReduces 是什么意思?这个问题太不清楚了,我很惊讶你可以为此投票。

标签: hadoop mapreduce cluster-analysis data-mining k-means


【解决方案1】:

不能将 k-means 与相似矩阵一起使用。故事结束:k-means 需要与 means 的相似性,而不是实例之间的相似性。但是还有其他算法。不幸的是,例如 PAM 的扩展性非常差,在集群上运行它也没有回报。

除此之外,只是实验。例如,选择尽可能多的减少核心;并选择您的集群可以支持的尽可能多的映射器(除非您的数据太小 - 每个映射器应该有 几个 MB 以使启动成本得到回报)

但我认为你还没有准备好回答这个问题。首先弄清楚你想做什么,然后如何设置可能出现或根本不出现的参数..

【讨论】:

    猜你喜欢
    • 2013-02-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-08-23
    • 1970-01-01
    • 2012-10-14
    • 1970-01-01
    • 2017-08-27
    相关资源
    最近更新 更多