Pandas/Spark/时间序列答案

【问题标题】：Pandas/Spark/Time-SeriesPandas/Spark/时间序列
【发布时间】：2021-09-27 12:52:02
【问题描述】：

有什么办法可以改造下表吗？

原始数据：

预期结果：

行数为 4 亿。有什么建议吗？在 Excel 中可以按如下方式完成：

将“ID”和“时间”复制到新工作表。删除重复项。
将“测试”列复制到新工作表，删除重复项，水平转置粘贴。
要获取“结果”值，请使用基于 3 个条件（ID、时间、测试）的索引匹配。

【问题讨论】：

标签： python pandas dataframe apache-spark time-series

【解决方案1】：

你应该在你的数据框上使用数据透视函数

from pyspark.sql.functions import col
from pyspark.sql.functions import first

pivot_df = df.groupBy("ID","Time").pivot("Test").agg(first(col("Result")))

【讨论】：