【问题标题】:Scale up the spark worker nodes using code使用代码扩展 spark 工作节点
【发布时间】:2020-07-23 16:38:54
【问题描述】:

我想在开始处理之前扩展 spark 集群以使所有工作节点都启动并运行。问题是因为工作节点的自动缩放不会在加载时立即发生,并且会导致工作节点崩溃。集群有 32 个节点,但只有 4 个节点超载并崩溃,所以我要做的是在 python 笔记本的开头编写一些代码行,这将启动剩余节点并启动并运行 24 个节点,然后执行实际数据处理。这可以使用代码吗?请指教。

【问题讨论】:

  • 如果我的答案对您有帮助,您可以接受它作为答案(点击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。

标签: apache-spark databricks azure-databricks


【解决方案1】:

通常,自动缩放适用于交互式工作负载。我很少看到它可以为工作带来好处,尽管营销可以很好地将其作为一种节省成本的功能进行销售。

您可以使用 Databricks 作业来创建自动化集群。当您在新的自动化集群上运行作业并在作业完成后终止集群时。

如果您知道什么时候放大应该比自动缩放更好,那么您可以使用这个调整大小 API:https://docs.databricks.com/dev-tools/api/latest/clusters.html#resize

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-08-08
    • 1970-01-01
    • 1970-01-01
    • 2017-03-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多