【发布时间】:2016-04-25 19:50:41
【问题描述】:
你的另一个 Spark 问题!
所以我使用 mllibs 原生 SVMWithSGD 训练了一个 SVM 模型。训练 rdd 分为 114 个分区,每个分区大约有 2700 个实例。
每个迭代作业分为两个阶段。第一阶段,随着我的节点线性扩展。然而,第二阶段仅分为 10 个左右的任务,远少于可用的 V 核,因此该阶段不能线性扩展。
我希望这个阶段被划分为更多的任务,以便更多的执行者可以并行处理它。有没有办法做到这一点?
还有一个巨大的调度器延迟,我了解到这是执行器和调度器之间通信所需的时间。
【问题讨论】:
-
所以我想要的不是更多的 reducer 任务,而是更少的任务。
标签: apache-spark rdd apache-spark-mllib