【发布时间】:2020-12-25 17:29:00
【问题描述】:
我在使用窗口功能时遇到了一些问题。我真的找不到任何可以涵盖顺序很重要的场景的示例。我想要做的是对 ColumnA 进行排名,考虑到 SortOrder(以及它们的第一次出现)。所以所有的 B 都会得到值 1、A 2 和 C 3。我可以用 rank 函数来实现它吗?我不能简单地按这两列排序。
example = example.withColumn("rank", F.rank().over(Window.orderBy('ColumnA')))
这个也行不通,因为订单会丢失。
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
import pyspark.sql.functions as F
from pyspark.sql.window import Window
data = [("B", "BA", 1),
("B", "BB", 2),
("B", "BC", 3),
("A", "AA", 4),
("A", "AB", 5),
("C", "CA", 6),
("A", "AC", 7)]
cols = ['ColumnA', 'ColumnB', 'SortOrder']
schema = StructType([StructField('ColumnA', StringType(), True),
StructField('ColumnB', StringType(), True),
StructField('SortOrder', IntegerType(), True)])
rdd = sc.parallelize(data)
example = spark.createDataFrame(rdd, schema)
?
example = example.withColumn("rank", F.rank().over(Window.orderBy('SortOrder', 'ColumnA')))
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql window-functions