【发布时间】:2017-04-11 03:01:25
【问题描述】:
我是分布式计算的新手,我正在尝试使用 Spark 的 mllib kmeans 在 EC2 上运行 Kmeans。当我阅读教程时,我发现以下代码 sn-p on http://spark.apache.org/docs/latest/mllib-clustering.html#k-means
我无法理解此代码如何在集群中运行。具体来说,我无法理解以下内容:
提交代码到master节点后,spark怎么知道job怎么并行化?因为似乎没有处理此问题的代码部分。
代码是否复制到所有节点并在每个节点上执行?主节点做计算吗?
节点如何传达每次迭代的部分结果?这是在 kmeans.train 代码中处理的,还是 spark 核心自动处理它?
【问题讨论】:
标签: apache-spark apache-spark-mllib