【发布时间】:2020-05-21 14:56:54
【问题描述】:
我想根据列值创建一个增量 ID。
例如,如果我有下表
-----------------------
| id | value |
-----------------------
| 3 | a |
| 2 | a |
| 1 | b |
| 4 | b |
| 5 | c |
-----------------------
我想创建一个带有随机或增量标识符的新列,该标识符对于列值是唯一的,如下所示:
-----------------------------------------------
| id | value | new_id |
-----------------------------------------------
| 3 | a | 1 |
| 2 | a | 1 |
| 1 | b | 2 |
| 4 | b | 2 |
| 5 | c | 3 |
-----------------------------------------------
除了使用 distinct 并稍后加入之外,还有其他选择吗?
谢谢!
【问题讨论】:
标签: apache-spark