【问题标题】:Pandas/Spark/Time-SeriesPandas/Spark/时间序列
【发布时间】:2021-09-27 12:52:02
【问题描述】:

有什么办法可以改造下表吗?

原始数据:

预期结果:

行数为 4 亿。有什么建议吗?在 Excel 中可以按如下方式完成:

  1. 将“ID”和“时间”复制到新工作表。删除重复项。
  2. 将“测试”列复制到新工作表,删除重复项,水平转置粘贴。
  3. 要获取“结果”值,请使用基于 3 个条件(ID、时间、测试)的索引匹配。

【问题讨论】:

    标签: python pandas dataframe apache-spark time-series


    【解决方案1】:

    你应该在你的数据框上使用数据透视函数

    from pyspark.sql.functions import col
    from pyspark.sql.functions import first
    
    pivot_df = df.groupBy("ID","Time").pivot("Test").agg(first(col("Result")))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-09-05
      • 2017-06-14
      • 2014-07-24
      • 1970-01-01
      • 2016-05-16
      • 2015-10-06
      相关资源
      最近更新 更多