使用代码扩展 spark 工作节点答案

【问题标题】：Scale up the spark worker nodes using code使用代码扩展 spark 工作节点
【发布时间】：2020-07-23 16:38:54
【问题描述】：

我想在开始处理之前扩展 spark 集群以使所有工作节点都启动并运行。问题是因为工作节点的自动缩放不会在加载时立即发生，并且会导致工作节点崩溃。集群有 32 个节点，但只有 4 个节点超载并崩溃，所以我要做的是在 python 笔记本的开头编写一些代码行，这将启动剩余节点并启动并运行 24 个节点，然后执行实际数据处理。这可以使用代码吗？请指教。

【问题讨论】：

如果我的答案对您有帮助，您可以接受它作为答案（点击答案旁边的复选标记，将其从灰色切换为已填充。）。这对其他社区成员可能是有益的。谢谢。

标签： apache-spark databricks azure-databricks

【解决方案1】：

通常，自动缩放适用于交互式工作负载。我很少看到它可以为工作带来好处，尽管营销可以很好地将其作为一种节省成本的功能进行销售。

您可以使用 Databricks 作业来创建自动化集群。当您在新的自动化集群上运行作业并在作业完成后终止集群时。

如果您知道什么时候放大应该比自动缩放更好，那么您可以使用这个调整大小 API：https://docs.databricks.com/dev-tools/api/latest/clusters.html#resize

【讨论】：