【发布时间】:2014-11-06 03:48:33
【问题描述】:
我有一个类似这样的矩阵:ItemA、ItemB、Similarity。
我希望它使用Kmeans 等算法通过MapReduce 对数据集进行聚类。但我不知道我应该使用多少个MapReduces 以及如何设计它们。
【问题讨论】:
-
听起来您是在寻找教程而不是问具体问题
-
您的数据是什么样的?你有相似度矩阵还是有原始数据?你的目标结果是什么?你想集群什么?你提到K-Means,你知道你想要多少个中心吗?如果没有,你知道在运行 K-Means 之前是否需要一个分区算法吗?如果是,是哪一个?你在互联网上读过那些东西吗?你想使用任何对你有帮助的框架吗?
many MapReduces是什么意思?这个问题太不清楚了,我很惊讶你可以为此投票。
标签: hadoop mapreduce cluster-analysis data-mining k-means