【问题标题】:when running spark mllib kmeans, What is the role of each stage on website?在运行 spark mllib kmeans 时,网站上每个阶段的作用是什么?
【发布时间】:2018-02-24 11:47:58
【问题描述】:

我尝试使用 spark mllib kmeans,但该作业挂在舞台“collectAsMap at KMeans.scala:302”上。我的代码是由 python 编写的。 有人可以告诉我每个阶段发生了什么,例如“在 KMeans.scala:436 收集”、在 KMeans.scala:404 聚合”、在 KMeans.scala:302 收集AsMap” here is the jobs picture

【问题讨论】:

    标签: apache-spark k-means


    【解决方案1】:

    K-means 是一种迭代算法,在每次迭代中,将点分配给最近的质心,并根据分配的点更新质心。重复此过程,直到满足某些质量指标。初始质心使用多种可能的方法之一计算,包括随机质心和 K-means||。

    在 Spark 中,每次迭代都由聚合组成,其中计算新质心和 collectAsMap,其中数据被提取到驱动程序并广播以供下一次迭代使用。

    第二部分对应使用K-means的并行初始化||

    【讨论】:

      猜你喜欢
      • 2016-11-26
      • 2016-03-24
      • 2016-06-01
      • 2014-12-14
      • 2016-07-09
      • 2016-10-25
      • 2019-10-15
      • 2016-10-04
      • 2017-04-11
      相关资源
      最近更新 更多