【问题标题】:Removing duplicate observations in SparkR DataFrame删除 SparkR DataFrame 中的重复观察
【发布时间】:2017-11-23 03:17:50
【问题描述】:

我有一个 SparkR DataFrame 有重复的观察结果。我找不到删除重复项的简单方法,而且似乎 PySpark dropDuplicates() 函数在 SparkR 中不可用。例如,如果我有以下DataFrame,如何根据fullname 重复的事实删除第 2 行和第 4 行?

newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"),
  surname = c("Smith", "Smith", "Taylor", "Taylor"),
  value = c(1.5, 1.5, 3.2, 3.2))
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname))
|name    | surname | value | fullname  |
|--------|---------|-------|-----------|
|Thomas  | Smith   |  1.5  |ThomasSmith|
|Thomas  | Smith   |  1.5  |ThomasSmith|
|Bill    | Taylor  |  3.2  |BillTaylor |
|Bill    | Taylor  |  3.2  |BillTaylor |

【问题讨论】:

    标签: r apache-spark apache-spark-sql sparkr


    【解决方案1】:

    sparkR 中有一个函数dropDuplicates 也可以用作

    dropDuplicates(newHire, "fullname")
    

    请参考here

    希望这有帮助!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-12-16
      • 2016-08-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-23
      • 1970-01-01
      相关资源
      最近更新 更多