【发布时间】:2016-07-04 02:15:14
【问题描述】:
我有一个相当大的数据集,总共有近 6000 个观察值。向我提供了另一个缺少观察结果的数据集。如果没有发生测量,则不用用 NA 填充行/观察,而是省略整个行/观察。第二个数据集有 5500 行。
我需要确定哪些观察没有记录,或者换句话说,第二个数据集中缺少哪些行。我指的不是 NA 或缺失值,而是未将其纳入数据集的观察结果。
在下面的示例中,每个观察 (ID) 还应具有“组”记录 11、12、13、14、21、22、23、24。但是,ID 206902 只有组 11、12、14, 21, 22, 23, 24. 不见了 13
在此示例中,ID 并不是真正唯一的,因此应该有 8 个 ID。 例如,ID 206901 & 组 11; ID 206901 & 第 12 组等
如何轻松确定缺少哪些观测值 (ID)?同样,每个 ID 应该有 8 条记录。
example <- structure(list(ID = c(206901L, 206901L, 206901L, 206901L, 206901L,
206901L, 206901L, 206901L, 206902L, 206902L, 206902L, 206902L,
206902L, 206902L, 206902L), group = c(11L, 12L, 13L, 14L, 21L,
22L, 23L, 24L, 11L, 12L, 14L, 21L, 22L, 23L, 24L)), .Names = c("ID",
"group"), sorted = "ID", class = c("tbl_dt", "tbl", "data.table",
"data.frame"), row.names = c(NA, -15L), .internal.selfref = <pointer: 0x0000000000100788>)
【问题讨论】:
标签: r select filter data.table