【发布时间】:2019-07-05 03:31:52
【问题描述】:
我的数据框中有一列是敏感的。我需要用一个数字替换敏感值,但必须这样做才能使相关列的不同计数保持准确。我在考虑窗口分区上的 sql 函数。但是找不到方法。
下面是一个示例数据框。
df = (sc.parallelize([
{"sensitive_id":"1234"},
{"sensitive_id":"1234"},
{"sensitive_id":"1234"},
{"sensitive_id":"2345"},
{"sensitive_id":"2345"},
{"sensitive_id":"6789"},
{"sensitive_id":"6789"},
{"sensitive_id":"6789"},
{"sensitive_id":"6789"}
]).toDF()
.cache()
)
我想创建一个如下所示的数据框。
有什么方法可以完成这项工作。
【问题讨论】:
-
只用
dense_rank
标签: pyspark autonumber