【发布时间】:2019-07-13 17:40:08
【问题描述】:
在下面的伪代码中,哪些在驱动程序中执行,哪些在执行程序中执行??为什么??
Dataset1 = Dataset 0(从 Dataset 0 派生 Dataset1)
数据集 2 = 数据集 1 ,数据集 0
对数据集 2 的操作
数据集 3 = 数据集 1,数据集 2
下面的伪代码让我知道
dataframe = spark.sql("select * from emp") dataframe=dataframe.withColumn("fullname",dataframe.empfirstname+dataframe.emplastname) 数据帧.count() 数据框.show()
【问题讨论】:
-
所有转换都将在工作节点(即执行程序)中运行,所有操作都将在驱动程序节点中运行。 .count 和 .show 将在驱动程序节点上运行。将在工作节点上休息。
-
在上述情况下,我从现有数据集派生数据集。即它发生在 Driver 或 Executor 中吗??
标签: apache-spark pyspark