如何通过忽略 R 中的 NA 来提取唯一行答案

【问题标题】：How to extract unique rows by ignoring NA's in R如何通过忽略 R 中的 NA 来提取唯一行
【发布时间】：2019-01-22 09:02:45
【问题描述】：

我有一个包含多行和多列的数据集，我想通过在少数情况下忽略一列中的 NA 并在少数情况下包括 NA 来提取唯一行。请看下面的详细介绍

数据集_A

e_id      age    fn    ln     custom_id
e1234     23     sur   bab    1344789
e1234     23     sur   bab    1344789
e1234     23     sur   bab    1617
e1234     23     sur   bab    NA
e2345     22     nav   kum    NA
e2345     22     nav   kum    52109
e2345     22     nav   kum    NA
e3456     21     ash   kuma   NA
e3456     21     ash   kuma   NA
e4567     23     anu   kot    NA

预期输出

e_id      age    fn    ln     custom_id
e1234     23     sur   bab    1344789
e1234     23     sur   bab    1617
e2345     22     nav   kum    52109
e3456     21     ash   kuma   NA
e4567     23     anu   kot    NA

基本上，如果该 e_id 存在 custom_id，我想忽略 custom_id 中具有 NA 的行，而如果用户在 custom_id 列中只有 NA 值，我想保留 1 行并忽略其他行。

试过了：

final_output = dataset_A[order(dataset_A$custom_id),]
final_output = final_output[!duplicated(final_output[,c(1:4)]),]

使用上面的代码，我无法从我的数据集中提取几行，例如 1617 custom_id for e_1234 e_id。如果我们能够找到相同的解决方案，那将非常有帮助。

【问题讨论】：

标签： r dataframe

【解决方案1】：

我们可以使用dplyr 中的slice 按e_id 分组，如果all 的custom_id 值为NA，则仅返回第一行，否则返回所有非NA 行，然后应用distinct获取唯一的行。

library(dplyr)
df %>%
  group_by(e_id) %>%
  slice(if(all(is.na(custom_id))) 1 else which(!is.na(custom_id))) %>%
  distinct()

#   e_id    age fn    ln    custom_id
#  <fct> <int> <fct> <fct>     <int>
#1 e1234    23 sur   bab     1344789
#2 e1234    23 sur   bab        1617
#3 e2345    22 nav   kum       52109
#4 e3456    21 ash   kuma         NA
#5 e4567    23 anu   kot          NA

也许我把基本的 R 方法过于复杂了，但是使用 ave 的方法会是

unique(df[with(df, ave(is.na(custom_id), e_id, FUN = function(x) 
   if (all(x)) c(TRUE, rep(FALSE, length(x) - 1)) else 
               replace(rep(TRUE, length(x)), x, FALSE))), ])


#    e_id age  fn   ln custom_id
#1  e1234  23 sur  bab   1344789
#3  e1234  23 sur  bab      1617
#6  e2345  22 nav  kum     52109
#8  e3456  21 ash kuma        NA
#10 e4567  23 anu  kot        NA

【讨论】：

【解决方案2】：

如果理解正确，您可以按如下方式使用 dplyr：

library(dplyr)
data %>% filter (., is.na(custom_id)==FALSE) %>% distinct(.)

如果你想保留 NAN，你可以添加 if else 到 slice 命令

Book2 %>%  group_by(., e_id) %>%
  slice(., ifelse(all(is.na(custom_id)), 1 , which(!is.na(custom_id))))

编辑：有人比我快，所以请转到上一个答案

【讨论】：