【问题标题】:How to "dense" a data frame in Spark [duplicate]如何在 Spark 中“密集”数据框 [重复]
【发布时间】:2017-06-17 10:07:58
【问题描述】:

我有一个数据框看起来像:

item_id  week_id  sale amount
1           1         10
1           2         12
1           3         15
2           1         4
2           2         7
2           3         9

我想将此数据框转换为新的数据框,如下所示:

item_id   week_1     week_2     week_3
1          10          12         15
2          4            7          9

这可以在 R 中轻松完成,但我不知道如何使用 Spark API 和 Scala。

【问题讨论】:

  • Pivot 是你的朋友! ;)

标签: scala apache-spark apache-spark-sql


【解决方案1】:

您可以使用groupBy.pivot,然后聚合 sale_amount 列,在这种情况下,您可以从 item 和 week 的每个组合 id 中获取第一个值,如果其中不超过一行每个组合:

df.groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+

如果item_idweek_id 的每个组合有超过一行,您可以使用其他聚合函数,例如sum

df.groupBy("item_id").pivot("week_id").agg(sum("sale_amount")).show
+-------+---+---+---+
|item_id|  1|  2|  3|
+-------+---+---+---+
|      1| 10| 12| 15|
|      2|  4|  7|  9|
+-------+---+---+---+

要获得正确的列名,您可以在旋转之前转换 week_id 列:

import org.apache.spark.sql.functions._

(df.withColumn("week_id", concat(lit("week_"), df("week_id"))).
    groupBy("item_id").pivot("week_id").agg(first("sale_amount")).show)

+-------+------+------+------+
|item_id|week_1|week_2|week_3|
+-------+------+------+------+
|      1|    10|    12|    15|
|      2|     4|     7|     9|
+-------+------+------+------+

【讨论】:

  • 谢谢,如果某些 item_id 没有值“week_id”,如何自动填充“0”?
  • 您可以使用na.fill(0)将缺失值填充为0。df.withColumn("week_id", concat(lit("week_"), df("week_id"))).groupBy("item_id").pivot("week_id").agg(first("sale_amount")).na.fill(0).show)
猜你喜欢
  • 2018-09-17
  • 1970-01-01
  • 1970-01-01
  • 2021-02-05
  • 2016-10-01
  • 1970-01-01
  • 2021-11-07
  • 1970-01-01
相关资源
最近更新 更多