【发布时间】:2016-10-01 19:11:46
【问题描述】:
是否可以告诉 spark drop 重复项丢弃第二个而不是第一个?
scala> df.show()
+-----------+
| _1|
+-----------+
|1 2 3 4 5 6|
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+
scala> val newDf = df.dropDuplicates()
newDf: org.apache.spark.sql.DataFrame = [_1: string]
scala> newDf.show()
+-----------+
| _1|
+-----------+
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+
【问题讨论】:
-
可以使用窗口函数stackoverflow.com/questions/35498162/…谢谢!
标签: scala apache-spark dataframe duplicates