Spark数据框删除重复项答案

【问题标题】：Spark dataframe drop duplicatesSpark数据框删除重复项
【发布时间】：2016-10-01 19:11:46
【问题描述】：

是否可以告诉 spark drop 重复项丢弃第二个而不是第一个？

scala> df.show()
+-----------+
|         _1|
+-----------+
|1 2 3 4 5 6|
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+


scala> val newDf = df.dropDuplicates()
newDf: org.apache.spark.sql.DataFrame = [_1: string]

scala> newDf.show()
+-----------+                                                                   
|         _1|
+-----------+
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+

【问题讨论】：

可以使用窗口函数stackoverflow.com/questions/35498162/…谢谢！

标签： scala apache-spark dataframe duplicates

【解决方案1】：

对具有相同值的行进行排名/索引，然后删除索引/排名 > 1 的所有记录的条目。

【讨论】：