仅基于 R 中的一列删除重复行

【问题标题】：Removing duplicate row based on only one column in R仅基于 R 中的一列删除重复行
【发布时间】：2021-01-31 06:23:26
【问题描述】：

我在 R 中有一个包含 1000 多行的数据框。其中一列是 eventID，并且有一些重复。我想删除行，以便所有事件 ID 都是唯一的。

例如，如果有 3 行 EVENT ID = 78，我想删除其中 2 行，但我不在乎哪 2 行。

我不想考虑任何其他列。

【问题讨论】：

【解决方案1】：

我们可以在base R 中使用duplicated 来只保留重复的第一行

subset(df1, !duplicated(EVENTID))

或与distinct 来自dplyr

library(dplyr)
distinct(df1, EVENTID, .keep_all = TRUE)

【讨论】：