【问题标题】:Pyspark: Rank() over column and index?Pyspark:在列和索引上排名()?
【发布时间】:2020-12-25 17:29:00
【问题描述】:

我在使用窗口功能时遇到了一些问题。我真的找不到任何可以涵盖顺序很重要的场景的示例。我想要做的是对 ColumnA 进行排名,考虑到 SortOrder(以及它们的第一次出现)。所以所有的 B 都会得到值 1、A 2 和 C 3。我可以用 rank 函数来实现它吗?我不能简单地按这两列排序。

example = example.withColumn("rank", F.rank().over(Window.orderBy('ColumnA')))

这个也行不通,因为订单会丢失。

from pyspark.sql.types import StructType, StructField, StringType, IntegerType
import pyspark.sql.functions as F
from pyspark.sql.window import Window

data = [("B", "BA", 1),
        ("B", "BB", 2),
        ("B", "BC", 3),
        ("A", "AA", 4),
        ("A", "AB", 5),
        ("C", "CA", 6),
        ("A", "AC", 7)]

cols = ['ColumnA', 'ColumnB', 'SortOrder']

schema = StructType([StructField('ColumnA', StringType(), True),
                     StructField('ColumnB', StringType(), True),
                     StructField('SortOrder', IntegerType(), True)])

rdd = sc.parallelize(data)
example = spark.createDataFrame(rdd, schema)

?
example = example.withColumn("rank", F.rank().over(Window.orderBy('SortOrder', 'ColumnA')))

【问题讨论】:

    标签: python apache-spark pyspark apache-spark-sql window-functions


    【解决方案1】:

    获取每个 ColumnA 值的最小 SortOrder,然后获取排名,并将其连接回原始数据帧。

    example2 = example.join(
        example.groupBy('ColumnA')
               .min('SortOrder')
               .select('ColumnA',
                       F.rank().over(Window.orderBy('min(SortOrder)')).alias('rank')
                      ),
        on = 'ColumnA'
    ).orderBy('SortOrder')
    
    example2.show()
    +-------+-------+---------+----+
    |ColumnA|ColumnB|SortOrder|rank|
    +-------+-------+---------+----+
    |      B|     BA|        1|   1|
    |      B|     BB|        2|   1|
    |      B|     BC|        3|   1|
    |      A|     AA|        4|   2|
    |      A|     AB|        5|   2|
    |      C|     CA|        6|   3|
    |      A|     AC|        7|   2|
    +-------+-------+---------+----+
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-02-07
      • 2021-05-12
      • 2017-04-16
      • 1970-01-01
      • 2014-09-17
      • 2011-03-03
      • 2020-11-02
      相关资源
      最近更新 更多