【发布时间】:2019-03-17 17:06:12
【问题描述】:
我有一个如下所示的数据框
A B C D
foo one small 1
foo one large 2
foo one large 2
foo two small 3
我需要 groupBy 基于 A 和 B pivot 在 C 列和 sum D 列
我可以使用
来做到这一点df.groupBy("A", "B").pivot("C").sum("D")
但是,如果我尝试类似的方法,我还需要在 groupBy 之后找到 count
df.groupBy("A", "B").pivot("C").agg(sum("D"), count)
我得到像
这样的输出A B large small large_count small_count
有没有办法在groupBy之后只得到一个count,然后再做pivot
【问题讨论】:
标签: scala apache-spark databricks