【发布时间】:2022-01-14 22:05:02
【问题描述】:
我有一个包含 3 列的数据框,如下所示
我想旋转并填充 id 上的列,以便每一行都包含一个 每个 id + 列组合的列,其中值是该 id 的值,如下所示
注意:如果ID 不匹配,则显示零或空值。例如ID2_colA和Id2_ColB在前两行得到0,ID1_calAabdID1_ColB在第3行得到0
ID 列中有更多不同的值。为了便于说明而缩短了它
如何在 pyspark 中实现这一点?
这是第一个数据帧的代码:
data = [(("ID1", 3, 5)), (("ID1", 4, 12)), (("ID2", 8, 3))]
df = spark.createDataFrame(data, ["ID", "colA", "colB"])
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql