【发布时间】:2022-11-11 21:58:00
【问题描述】:
在寻找比平时需要很长时间的火花工作的舞台细节时;据观察,'第 n 阶段'即使在所有之后也没有开始'从 0 到 n-1 的阶段'已经完成。
随附的详细信息来自作业/构建 -> 阶段进度的火花详细信息。
我无法理解第 8 阶段在长时间延迟后开始的原因(上午 12.48 对上午 1.25)。如你看到的; 8 以上的所有阶段都在几秒钟或几分钟内完成,突出显示的阶段之间 37 分钟的延迟让我感到困惑。
非常感谢任何帮助。
【问题讨论】:
-
您的数据集有多大,有多少文件?
-
阶段 1-7 处理大约 5.2 GB 大小的数据集,包含 1884 个文件。
标签: apache-spark pyspark palantir-foundry foundry-code-repositories