【发布时间】:2016-12-13 04:05:56
【问题描述】:
我正在使用 pyspark 2.0 我有一个这样的df:
+----------+----------+--------
|pid | date| p_category
+----------+----------+--------
| 1ba |2016-09-30|flat
| 3ed |2016-09-30|ultra_thin
+----------+----------+----------
我做了一个
df.groupBy("p_category","date") \
.agg(countDistinct("pid").alias('cnt'))
我得到了这个:
+-------------+----------+------+
|p_category | date| cnt|
+-------------+----------+------+
| flat |2016-09-30|116251|
|ultra_thin |2016-09-30|113017|
+-------------+----------+------+
但我希望我像这样透视表:
+----------+----------+------+
|date | flat| ultra-thin
+----------+----------+------+
2016-09-30 | 116251|113017
------------------------------
df.groupBy("p_category","date") \
.agg(countDistinct("pid").alias('cnt')).pivot("p_category")
我收到了这个错误:
'DataFrame' 对象没有属性'pivot'
在这种情况下我该如何做一个支点,或者有其他解决方案吗? 谢谢
【问题讨论】: