【发布时间】:2017-06-13 03:39:29
【问题描述】:
我有一个包含许多重复项的大型数据框(≈ 2M 观察值)。我将删除这些重复项,但我需要将非重复值保留为以另一个不丢失的值 (NA) 为条件。它可以是任何可以想象的值,只要有一个非 NA。例如:
data <- airquality
data[4:10,3] <- rep(NA,7)
data[1:5,4] <- NA
library(dplyr)
new.data <- data %>%
group_by(Ozone) %>%
filter(Wind==????))
在这里您可以看到我不确定要过滤什么,如“Wind==????”注释。只要 Wind 列中有任何值(数字或名义),那么我想保留这些唯一值,同时删除非缺失值的条件值。
谢谢!
【问题讨论】:
-
你想要
data %>% group_by(Ozone) %>% filter(!duplicated(Wind) & !is.na(Wind))