没有 orderBy 的 Spark 窗口函数答案

【问题标题】：Spark window function without orderBy没有 orderBy 的 Spark 窗口函数
【发布时间】：2017-08-06 09:19:18
【问题描述】：

我有一个包含 a, b 列的 DataFrame，我想使用窗口函数通过 a 对数据进行分区，然后为 b 提供唯一索引

val window_filter = Window.partitionBy($"a").orderBy($"b".desc)
withColumn("uid", row_number().over(window_filter))

但是对于这个用例，通过b 订购是不需要的，并且可能很耗时。我如何在不订购的情况下实现这一目标？

【问题讨论】：

【解决方案1】：

row_number() 没有 order by 或 with order by 常量具有不确定的行为，并且由于并行处理，每次运行可能会为相同的行产生不同的结果。如果按列的顺序没有改变，也会发生同样的情况，行的顺序可能会因运行而异，您会得到不同的结果。

【讨论】：