理解一个窗口函数的例子答案

【问题标题】：Understanding an example of window function理解一个窗口函数的例子
【发布时间】：2021-04-02 19:14:53
【问题描述】：

我正在运行代码脚本以获得以下结果。代码如下所示。我不明白为什么我得到了xyz1 列，如图所示。比如xyz1的第一行为什么是0。根据windows函数，它对应的组应该是前两行，但是为什么F.count(F.col("xyz")).over(w)在这里得到0。

import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql import functions as F
spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
list=([1,5,4],
    [1,5,None],
    [1,5,1],
    [1,5,4],
    [2,5,1],
    [2,5,2],
    [2,5,None],
    [2,5,None],
     [2,5,4])
df=spark.createDataFrame(list,['I_id','p_id','xyz'])
w= Window().partitionBy("I_id","p_id").orderBy(F.col("xyz"))
df.withColumn("xyz1",F.count(F.col("xyz")).over(w)).show()

【问题讨论】：

标签： apache-spark pyspark apache-spark-sql window-functions

【解决方案1】：

请注意，count 仅计算非空项，并且分组仅由 partitionBy 子句定义，而不是 orderBy 子句。

指定排序列时，默认窗口范围为（根据docs）

(rangeFrame, unboundedPreceding, currentRow)

所以你的窗口定义实际上是

w = (Window().partitionBy("I_id","p_id")
             .orderBy(F.col("xyz"))
             .rangeBetween(Window.unboundedPreceding, Window.currentRow)
    )

所以窗口只包含当前行中从xyz = -infinity 到xyz 的值的行。这就是第一行计数为零的原因，因为它计算了从xyz = -infinity 到xyz = null 的非空项，即数据帧的前两行。

对于xyz = 2所在的行，计数包括从xyz = -infinity到xyz = 2的非空项，即前四行。这就是计数为 2 的原因，因为非空项是 1 和 2。

【讨论】：

感谢您的解释，对于此表中的第八行（1,5,4,3），在我看来，该行的 xyz1 列值应该是 2 而不是 3，因为它之前只有一个非空值行。
该窗口包含直到当前行的值。在这种情况下，所有 xyz