【发布时间】:2020-11-09 15:45:46
【问题描述】:
我是 Azure Databricks 的新手。我有两个输入文件和 python AI 模型,我正在清理输入文件并在输入文件上应用 AI 模型以获得最终概率。读取文件、加载模型、清理数据、预处理数据并以概率显示输出只需要我几分钟。
但是,当我尝试将结果写入表格或镶木地板文件时,我需要花费 4-5 多个小时。我尝试了各种 repartition/partitionBy/saveAsTable 方法,但都不够快。
我的输出 spark 数据框由 120000000 行的三列组成。我的共享集群大小是 9 节点集群,每个节点有 56GB 内存。
我的疑问是:- 1.) 具有慢速写入能力的天蓝色数据块中的预期行为。 2.) 我们不能在 azure databricks 中调整 spark 配置是真的吗,azure databricks 会使用可用内存自行调整。
【问题讨论】:
标签: apache-spark pyspark azure-databricks