【问题标题】:Spark dataframe drop duplicatesSpark数据框删除重复项
【发布时间】:2016-10-01 19:11:46
【问题描述】:

是否可以告诉 spark drop 重复项丢弃第二个而不是第一个?

scala> df.show()
+-----------+
|         _1|
+-----------+
|1 2 3 4 5 6|
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+


scala> val newDf = df.dropDuplicates()
newDf: org.apache.spark.sql.DataFrame = [_1: string]

scala> newDf.show()
+-----------+                                                                   
|         _1|
+-----------+
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+

【问题讨论】:

标签: scala apache-spark dataframe duplicates


【解决方案1】:

对具有相同值的行进行排名/索引,然后删除索引/排名 > 1 的所有记录的条目。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-05-12
    • 1970-01-01
    • 2020-12-23
    • 2018-04-25
    • 2021-05-14
    • 1970-01-01
    • 1970-01-01
    • 2020-05-08
    相关资源
    最近更新 更多