【发布时间】:2021-01-22 08:01:49
【问题描述】:
我正在尝试计算窗口内的行数,并将该值放在每个窗口的列中。 为此,我只是使用 row_number 函数,然后获取该 row_number 列的最大数量。 我的问题是:有没有更有效的方法来实现这个目标,避免这两个步骤? windows函数有count函数吗?
这是我的代码:
output_df = input_df\
.withColumn('row_number_window', row_number().over(window))\
.withColumn('n_rows_count', max('row_number_window').over(window))
【问题讨论】:
标签: apache-spark pyspark count aggregate window-functions