【问题标题】:Spark MLLIB parallelism multiple nodesSpark MLLIB 并行多节点
【发布时间】:2016-04-25 18:49:16
【问题描述】:

“spark mllib”提供的机器学习算法可以像天真的再见,随机森林一样跨火花集群以并行模式运行吗?或者我们需要更改代码?请提供一个并行运行的示例?不确定 MLLIB 中的并行性如何工作(映射) - 因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行? 谢谢

【问题讨论】:

    标签: apache-spark apache-spark-mllib


    【解决方案1】:

    Spark MLLib 提供的这些算法会自动并行运行。他们期望一个 RDD 作为输入。 RDD 是一种弹性分布式数据集,分布在计算机集群中。

    Here 是一个使用决策树进行分类问题的示例问题。

    我强烈建议深入探索link provided above。该页面包含大量文档和如何编写这些算法的示例,包括生成训练和测试数据集、评分、交叉验证等。

    这些算法通过在工作节​​点的数据子集上运行计算并行运行,然后在工作节点和主节点之间共享这些计算的结果。主节点收集各个计算的结果,并根据需要聚合它们,以根据整个数据集做出决策。计算量大的活动主要在工作节点上执行。

    【讨论】:

      猜你喜欢
      • 2016-03-07
      • 2017-04-12
      • 2016-05-29
      • 2015-02-23
      • 2017-12-20
      • 2018-02-17
      • 1970-01-01
      • 1970-01-01
      • 2017-01-28
      相关资源
      最近更新 更多