Spark MLLIB 并行多节点答案

【问题标题】：Spark MLLIB parallelism multiple nodesSpark MLLIB 并行多节点
【发布时间】：2016-04-25 18:49:16
【问题描述】：

“spark mllib”提供的机器学习算法可以像天真的再见，随机森林一样跨火花集群以并行模式运行吗？或者我们需要更改代码？请提供一个并行运行的示例？不确定 MLLIB 中的并行性如何工作（映射） - 因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行？谢谢

【问题讨论】：

【解决方案1】：

Spark MLLib 提供的这些算法会自动并行运行。他们期望一个 RDD 作为输入。 RDD 是一种弹性分布式数据集，分布在计算机集群中。

Here 是一个使用决策树进行分类问题的示例问题。

我强烈建议深入探索link provided above。该页面包含大量文档和如何编写这些算法的示例，包括生成训练和测试数据集、评分、交叉验证等。

这些算法通过在工作节点的数据子集上运行计算并行运行，然后在工作节点和主节点之间共享这些计算的结果。主节点收集各个计算的结果，并根据需要聚合它们，以根据整个数据集做出决策。计算量大的活动主要在工作节点上执行。

【讨论】：