【发布时间】:2019-07-03 20:30:37
【问题描述】:
我有一张包含许多不同有效数字的数字表。我需要跨列找到这些数字的完全匹配 - 例如
find_mz_matches <- data.frame("mz1" = c(3.14222, 314.12003, 214.220,
254.111223, NA, NA, NA, NA, NA), "mz2" = c(3.14222, 456.2200001, NA,
NA, NA, NA, NA, NA, NA), "mz3" = c(300.112223, 456.2200001, 3.14222,
254.111223, 900.232, 476.0012503, 459.00201, 500.60402, 300.4053102))
我想知道 mz1 和 mz2、mz2 和 mz3 之间以及最后所有三列之间共享哪些值。
因此,比较 mz1 和 mz2 应该得出:
mz1_v_mz2
3.14222
456.2200001
并比较所有三个:
mz_all
3.14222
我拼凑了一些几乎可以工作的东西,但问题是它在某个地方四舍五入,我的输出包括相似但不相同的数字,例如3.14222 不应与 3.14223 匹配。它还在输出中包含 NA,这是不需要的。
duplicates_across1 <- find_mz_matches[find_mz_matches$mz1
%in% find_mz_matches$mz2, ]
这应该可以比较前两列,所以我想我会获取输出并再次进行下一次比较 - 将duplicates_across1的输出与find_mz_matches$mz3进行比较。出于某种原因,它没有在所有三列之间捕捉到 3.14222 的存在,我不知道为什么。
duplicates_all <- duplicates_across1[duplicates_across1$mz1
%in% find_mz_matches$mz3, ]
【问题讨论】:
标签: r filtering data-manipulation