【问题标题】:Delay in starting the next stage in Spark job延迟启动 Spark 作业的下一个阶段
【发布时间】:2022-11-11 21:58:00
【问题描述】:

在寻找比平时需要很长时间的火花工作的舞台细节时;据观察,'第 n 阶段'即使在所有之后也没有开始'从 0 到 n-1 的阶段'已经完成。

随附的详细信息来自作业/构建 -> 阶段进度的火花详细信息。

我无法理解第 8 阶段在长时间延迟后开始的原因(上午 12.48 对上午 1.25)。如你看到的; 8 以上的所有阶段都在几秒钟或几分钟内完成,突出显示的阶段之间 37 分钟的延迟让我感到困惑。

非常感谢任何帮助。

【问题讨论】:

  • 您的数据集有多大,有多少文件?
  • 阶段 1-7 处理大约 5.2 GB 大小的数据集,包含 1884 个文件。

标签: apache-spark pyspark palantir-foundry foundry-code-repositories


【解决方案1】:

两个阶段之间的滞后可能是 IO 发生。我建议您对数据集进行分区,以便每个文件都有 128MB。打开、写入和关闭 1884 个文件需要时间,而 5.2GB 的大小可以处理大约 40 个文件。

df.repartition(40)

应该有帮助。

【讨论】:

    猜你喜欢
    • 2013-03-15
    • 2010-12-15
    • 1970-01-01
    • 2012-08-19
    • 2012-03-21
    • 2011-03-24
    • 1970-01-01
    • 1970-01-01
    • 2018-04-01
    相关资源
    最近更新 更多