【发布时间】:2021-08-09 14:58:28
【问题描述】:
我有一个包含许多重复名称的数据框,下面是一个可重现的示例。
我正在尝试通过删除具有重复名称和最低信息的行来清理数据集。
我添加了一列,用于计算每行中 % of NA 的单元格,在我的示例中,我将其称为 %_Scoring .
在重复名称行中,我想保留 最低 %_Scoring (% of NA)
N:B 如果 %_Scoring 相等,没关系,仍应删除两行之一。
data_people <- "https://raw.githubusercontent.com/max9nc9/Temp/main/data_people.csv"
data_people <- read.csv(data_people, sep = ",")
在上面的数据示例中,我只保留 2 行:
- 第一排是玛格丽塔潘
- 第二行是 John Doe,其中 %_Scoring = 0.56
【问题讨论】:
-
好的,我编辑了我的帖子,谢谢!
标签: r dataframe duplicates data-wrangling