【发布时间】:2019-01-24 16:06:02
【问题描述】:
当我的 spark 程序执行时,它会创建 1000 个阶段。不过,我看过推荐的只有200。最后我有两个动作将数据写入 S3,之后我有未持久的数据帧。现在,当我的 spark 程序将数据写入 S3 时,它仍然运行了将近 30 分钟。为什么会这样?是因为我坚持了大量的数据帧吗?
P.S -> 我只运行 5 个输入记录的程序。
【问题讨论】:
-
我强烈建议您添加一些火花代码。否则,我们最多只能猜测答案。
标签: apache-spark amazon-s3 apache-spark-sql spark-streaming