【发布时间】:2016-12-19 05:15:53
【问题描述】:
我有一个数据框,其中包含缺少值的重复行。我想删除重复的行,同时保留某一列的数据(例如下面示例中的年龄)。由于一列的值在模型中的权重比其他值大,我想保留该列的数据。我尝试了Removing duplicate Values in Dataframe in R 提出的方法,但我的数据框很大,缺失值分布在一列以上。任何建议将不胜感激。
**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
ali, NA, bali, matric, 786
brad, NA, sofia, inter, 555
ali, 9999999, bali, matric, 444
预期的输出应如下所示:
**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
问候,
【问题讨论】:
-
请
dput您的数据。预期的输出是什么? -
请在您的问题中添加一些预期的输出。另外,你能展示一些你用来解决这个问题的代码吗?
-
只需
order并删除duplicated条目 -
如果它们不一样,它们就不是重复的。
-
是什么让
ali, 23,...比ali, 99999,...更受欢迎?是否与值或行顺序或其他什么有关?
标签: r dataframe data-science