什么决定了 Spark 应用程序中的作业数量答案

【问题标题】：What decides the number of jobs in a spark application什么决定了 Spark 应用程序中的作业数量
【发布时间】：2022-03-03 00:24:37
【问题描述】：

以前我的理解是，一个动作将在 spark 应用程序中创建一个工作。但是让我们看看下面的场景，我只是使用 .range() 方法创建一个数据框

df=spark.range(10)

由于我的 spark.default.parallelism 是 10，因此生成的数据帧是 10 个分区。现在我只是在数据帧上执行 .show() 和 .count() 操作

df.show()
df.count()

现在，当我检查 spark 历史记录时，我可以看到 .show() 的 3 个作业和 .count() 的 1 个作业

为什么 .show() 方法有 3 个作业？

我读过一些 .show() 最终会在内部调用 .take() 的地方，它会遍历决定作业数量的分区。但我没看懂那部分？究竟是什么决定了工作的数量？

【问题讨论】：

标签： apache-spark pyspark

【解决方案1】：

类似的问题在 StackOverflow 上被问过很多次。例如：

看了Spark的源码就很明显了。

背景知识：RDD是Spark的基础数据结构，所以Dataset（和Dataframe）在运行时也会使用RDD的API。

调用栈是：show()方法会调用showString()，和showString() -> getRows() -> take(n) -> head(n)。最后，会导致RDD的take(n)。

while (buf.size < num && partsScanned < totalParts) {
        ...
        val res = sc.runJob(this, (it: Iterator[T]) => it.take(left).toArray, p)
        res.foreach(buf ++= _.take(num - buf.size))
        partsScanned += p.size
}

默认有12个分区，根据n参数，take可能会启动多个job。

【讨论】：

嘿，谢谢。实际上后来我自己发现了这个并在另一个线程中回答了另一个问题：stackoverflow.com/a/67348401/10118393
这不是“很明显”，为什么在原始问题中 show() 有 3 个工作？不是 4 还是 5？