【发布时间】:2021-09-27 12:52:02
【问题描述】:
有什么办法可以改造下表吗?
原始数据:
预期结果:
行数为 4 亿。有什么建议吗?在 Excel 中可以按如下方式完成:
- 将“ID”和“时间”复制到新工作表。删除重复项。
- 将“测试”列复制到新工作表,删除重复项,水平转置粘贴。
- 要获取“结果”值,请使用基于 3 个条件(ID、时间、测试)的索引匹配。
【问题讨论】:
标签: python pandas dataframe apache-spark time-series
有什么办法可以改造下表吗?
行数为 4 亿。有什么建议吗?在 Excel 中可以按如下方式完成:
【问题讨论】:
标签: python pandas dataframe apache-spark time-series
你应该在你的数据框上使用数据透视函数
from pyspark.sql.functions import col
from pyspark.sql.functions import first
pivot_df = df.groupBy("ID","Time").pivot("Test").agg(first(col("Result")))
【讨论】: