【发布时间】:2020-09-08 23:33:05
【问题描述】:
我需要统计一个pyspark数据框中重复值的出现次数,如图所示。 简而言之,当值相同时,它会累加,直到值不同。当值不同时,计数被重置。我需要它在一个列中。
我有什么:
+------+
| val |
+------+
| 0 |
| 0 |
| 0 |
| 1 |
| 1 |
| 2 |
| 2 |
| 2 |
| 3 |
| 3 |
| 3 |
| 3 |
+------+
我需要什么:
+------+-----+
| val |ocurr|
+------+-----+
| 0 | 0 |
| 0 | 1 |
| 0 | 2 |
| 1 | 0 |
| 1 | 1 |
| 2 | 0 |
| 2 | 1 |
| 2 | 2 |
| 3 | 0 |
| 3 | 1 |
| 3 | 2 |
| 3 | 3 |
+------+-----+
【问题讨论】:
标签: python amazon-web-services pyspark apache-spark-sql aws-glue