【发布时间】:2019-07-16 11:49:08
【问题描述】:
Pyspark 新手在这里。例如,我有一个数据框,
+------------+-------+----+
| id| mode|count|
+------------+------+-----+
| 146360 | DOS| 30|
| 423541 | UNO| 3|
+------------+------+-----+
我想要一个带有新列 aggregate 和 count * 2 的数据框,当模式为 'DOS' 和 count * 1 时,模式为 'UNO'
+------------+-------+----+---------+
| id| mode|count|aggregate|
+------------+------+-----+---------+
| 146360 | DOS| 30| 60|
| 423541 | UNO| 3| 3|
+------------+------+-----+---------+
感谢您的意见以及一些最佳实践的建议:)
【问题讨论】: