【发布时间】:2012-01-24 15:06:06
【问题描述】:
我有一个包含 12 列和很多行的大型 data.frame,但让我们简化
Id A1 A2 B1 B2 Result
1 55 23 62 12 1
2 23 55 12 62 1 * (dup of Id 1)
3 23 6 2 62 1
4 23 55 62 12 1 * (dup of Id 1)
5 21 62 55 23 0 * (dup of Id 1)
6 . . .
. .
. .
. .
现在 A 的 (A1, A2) 和 B 的 (B1, B2) 的顺序无关紧要。如果它们都具有相同的值,例如 (55,23) 和 (62,12),则无论 A 和 B 变量的顺序如何,它们都是重复的。
此外,如果 A_id_x = B_id_y 和 B_id_x = A_id_y 和 Result_id_x = 1 - Result_id_y 我们也有重复。
如何清理这一帧重复项?
【问题讨论】:
-
Id 3 是否也是 Id 1 的副本,因为 x[1,"A2"]==x[3, "A1"] 和 x[1,"B1"]==x[ 3,"B2"]?
标签: r duplicates