【发布时间】:2016-07-24 12:50:51
【问题描述】:
我有一个包含用户信息的 data.frame,但每个用户 ID 可能有也可能没有重复的行,在不同的变量中有相当多的缺失数据。 我要做的是删除重复的用户数据,但是对于每个用户,我想保留该行中包含最少缺失值的行,以尽可能多地保留用户的信息。这是创建演示数据框的代码示例。任何帮助将不胜感激,特别是如果它是通过“dplyr”包完成的。
User_Table <- data.frame(User_ID =rep(c("UserA","UserB","UserC"),each=3),
VariableA= rep(c(1,NA,2),each=3),
VariableB = rep(c("TypeA","TypeB",NA),each=3),
VariableC = rep(c(NA,2,3),each=3))
User_Table[c(1,2,4,5,6,7),3] <- NA
【问题讨论】:
-
对于 User_ID "B" 和 "C" 有多种情况,行具有最小 NA。您要选择第一个案例还是所有这些行。
标签: r duplicates filtering dplyr