【发布时间】:2019-11-27 18:27:58
【问题描述】:
我很好奇 Spark 如何处理计算阶段。
我可以举几个例子:
val df1 = stage1(df)
val df2 = stage2(df1)
df2.show(10)
val df3 = stage3(df2)
Spark 如何在这里处理show?它是否计算stage1 和stage2 两次,一次用于演出,一次用于stage3。这意味着 show() 会减慢进程
用户是否可以控制持久化和不持久化的内容?
提前致谢!
【问题讨论】:
标签: apache-spark