【问题标题】:In apache spark SQL, how to remove the duplicate rows when using collect_list in window function?在apache spark SQL中,如何在窗口函数中使用collect_list时删除重复的行?
【发布时间】:2020-04-22 01:18:55
【问题描述】:

我有以下数据框,

+----+-----+----+--------+
|year|month|item|quantity|
+----+-----+----+--------+
|2019|1    |TV  |8       |
|2019|2    |AC  |10      |
|2018|1    |TV  |2       |
|2018|2    |AC  |3       |
+----+-----+----+--------+

通过使用窗口函数,我想得到下面的输出,

val partitionWindow = Window.partitionBy("year").orderBy("month")
val itemsList= collect_list(struct("item", "quantity")).over(partitionWindow)

df.select("year", itemsList as "items")

Expected output:
+----+-------------------+
|year|items              |
+----+-------------------+
|2019|[[TV, 8], [AC, 10]]|
|2018|[[TV, 2], [AC, 3]] |
+----+-------------------+

但是,当我使用窗口功能时,每个项目都有重复的行,

Current output:
+----+-------------------+
|year|items              |
+----+-------------------+
|2019|[[TV, 8]]          |
|2019|[[TV, 8], [AC, 10]]|
|2018|[[TV, 2]]          |
|2018|[[TV, 2], [AC, 3]] |
+----+-------------------+

我想知道删除重复行的最佳方法是什么?

【问题讨论】:

  • 更正了数据集中的错误
  • 您可以使用unbounded window 上的last 函数进行过滤。或获取row_number(),然后获取maxrow_number 进行过滤。
  • 实际上是一个非常好的问题,我对 1issue 的非 udf 解决方案
  • 贴了一个UDF很简单的答案。

标签: dataframe apache-spark apache-spark-sql


【解决方案1】:

我相信这里有趣的部分是项目的聚合列表是按月排序的。所以我用三种方法编写了代码:

创建示例数据集:

import org.apache.spark.sql._
import org.apache.spark.sql.functions._
case class data(year : Int, month : Int, item : String, quantity : Int)
val spark = SparkSession.builder().master("local").getOrCreate()
import spark.implicits._
val inputDF = spark.createDataset(Seq(
    data(2018, 2, "AC", 3),
    data(2019, 2, "AC", 10),
    data(2019, 1, "TV", 2),
    data(2018, 1, "TV", 2)
    )).toDF()

方法1:将月份、项目和数量聚合到列表中,然后使用UDF按月份对项目进行排序:

case class items(item : String, quantity : Int)
def getItemsSortedByMonth(itemsRows : Seq[Row]) : Seq[items] = {
    if (itemsRows == null || itemsRows.isEmpty) {
      null
    }
    else {
      itemsRows.sortBy(r => r.getAs[Int]("month"))
      .map(r => items(r.getAs[String]("item"), r.getAs[Int]("quantity")))
    }
  }
val itemsSortedByMonthUDF = udf(getItemsSortedByMonth(_: Seq[Row]))
val outputDF = inputDF.groupBy(col("year"))
    .agg(collect_list(struct("month", "item", "quantity")).as("items"))
    .withColumn("items", itemsSortedByMonthUDF(col("items")))

方法2:使用窗口函数

val monthWindowSpec = Window.partitionBy("year").orderBy("month")
       val rowNumberWindowSpec = Window.partitionBy("year").orderBy("row_number")
        val runningList = collect_list(struct("item", "quantity")). over(rowNumberWindowSpec)
    val tempDF = inputDF
      // using row_number for continuous ranks if there are multiple items in the same month
      .withColumn("row_number", row_number().over(monthWindowSpec))
      .withColumn("items", runningList)
    .drop("month", "item", "quantity")

    tempDF.persist()
    val yearToSelect = tempDF.groupBy("year").agg(max("row_number").as("row_number"))

    val outputDF = tempDF.join(yearToSelect, Seq("year", "row_number")).drop("row_number")

编辑: 使用 Dataset API 为后代添加了第三种方法 - groupByKey 和 mapGroups:

//encoding to data class can be avoided if inputDF is not converted dataset of row objects
val outputDF = inputDF.as[data].groupByKey(_.year).mapGroups{ case (year, rows) =>
      val itemsSortedByMonth = rows.toSeq.sortBy(_.month).map(s => items(s.item, s.quantity))
      (year, itemsSortedByMonth)
    }.toDF("year", "items")

【讨论】:

  • 好东西,试图避免UDF,第二个不确定我会想出。
  • 我尝试了第三种方法,效果很好。感谢您的解决方案
  • 谢谢,@thebluephantom。有什么理由避免使用 UDF?
  • @s1705 为后代添加了第三种方法代码。很高兴它为你工作:)
  • 还发布了一个更简单的答案。
【解决方案2】:

最初我正在寻找一种没有 UDF 的方法。没关系,除了我无法优雅解决的一个方面。使用简单的地图 UDF,它非常简单,比其他答案更简单。因此,由于其他承诺,为了后代和稍后。

试试这个...

import spark.implicits._
import org.apache.spark.sql.functions._

case class abc(year: Int, month: Int, item: String, quantity: Int)
val itemsList= collect_list(struct("month", "item", "quantity"))

val my_udf = udf { items: Seq[Row] =>  
                   val res = items.map { r => (r.getAs[String](1), r.getAs[Int](2)) }
                   res
                 }
// Gen some data, however, not the thrust of the problem.
val df0 = Seq(abc(2019, 1, "TV", 8), abc(2019, 7, "AC", 10), abc(2018, 1, "TV", 2), abc(2018, 2, "AC", 3), abc(2019, 2, "CO", 7)).toDS()
val df1 = df0.toDF()

val df2 = df1.groupBy($"year")
             .agg(itemsList as "items")
             .withColumn("sortedCol", sort_array($"items", asc = true))
             .withColumn("sortedItems", my_udf(col("sortedCol") ))
             .drop("items").drop("sortedCol")
             .orderBy($"year".desc)

df2.show(false)
df2.printSchema()

注意以下您应该解决的问题:

  • 稍后订购更好恕我直言
  • 数据错误(现已修复)
  • 按String排序mth不是一个好主意,需要转换为第m个num

返回:

+----+----------------------------+
|year|sortedItems                 |
+----+----------------------------+
|2019|[[TV, 8], [CO, 7], [AC, 10]]|
|2018|[[TV, 2], [AC, 3]]          |
+----+----------------------------+

【讨论】:

  • 我认为,collect_set 会删除数据集中的重复项,而不是重复的行
  • 看答案,注意输出和groupBy,collect_set和collect_list都有
  • 对不起,对于数据集中的错误,我现在已经更正了。我试图运行您共享的代码,但我面临以下错误 org.apache.spark.sql.AnalysisException:表达式 'item' 既不在 group by 中,也不是聚合函数。添加到分组依据或包装在 first() (
  • 为我工作。将您的 cde 全部粘贴到下方,我会检查
  • 我想你错过了考虑分区窗口.....在我使用 group 和 collect_list 阅读的一些博客中可能没有正确遵循顺序..
猜你喜欢
  • 1970-01-01
  • 2021-12-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-07-10
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多