【问题标题】:Large number of stages in my spark program我的火花程序中的大量阶段
【发布时间】:2019-01-24 16:06:02
【问题描述】:

当我的 spark 程序执行时,它会创建 1000 个阶段。不过,我看过推荐的只有200。最后我有两个动作将数据写入 S3,之后我有未持久的数据帧。现在,当我的 spark 程序将数据写入 S3 时,它仍然运行了将近 30 分钟。为什么会这样?是因为我坚持了大量的数据帧吗?

P.S -> 我只运行 5 个输入记录的程序。

【问题讨论】:

  • 我强烈建议您添加一些火花代码。否则,我们最多只能猜测答案。

标签: apache-spark amazon-s3 apache-spark-sql spark-streaming


【解决方案1】:

可能集群需要更长的时间才能将数据附加到现有数据集,特别是所有 Spark 作业都已完成,但您的命令尚未完成,这是因为驱动节点正在临时从作业中移动任务的输出文件目录一个接一个到最终目的地,这对于云存储来说很慢。尝试将配置 ma​​preduce.fileoutputcommitter.algorithm.version 设置为 2。

【讨论】:

    猜你喜欢
    • 2018-07-24
    • 1970-01-01
    • 1970-01-01
    • 2017-11-13
    • 2018-01-10
    • 1970-01-01
    • 2019-11-28
    • 1970-01-01
    • 2011-05-03
    相关资源
    最近更新 更多