【发布时间】:2015-03-21 14:13:30
【问题描述】:
我有一个数据集,其中包含具有不同出生日期的重复样本。这显然不应该是这样,所以我试图想出一种方法来标记/标记那些特定的样本。最后,唯一旁边有 1 的样本将是具有不同 DOB 的重复样本,所有具有相同 DOB 和唯一样本的重复样本将具有 0。这是数据的简化版本。
test.df<-data.frame(specimen=c("A","A","B","C","B","D","C","D","E"),
DOB=c(as.Date('2000-05-10'),as.Date('2002-04-13'),as.Date('2001-05-12'),as.Date('2003-06-01'),as.Date('2003-04-21'),as.Date('2000-10-20'),as.Date('2003-06-01'),as.Date('2000-10-20'),as.Date('2001-11-23')))
specimen DOB
1 A 2000-05-10
2 A 2002-04-13
3 B 2001-05-12
4 C 2003-06-01
5 B 2003-04-21
6 D 2000-10-20
7 C 2003-06-01
8 D 2000-10-20
9 E 2001-11-23
并且想要这样的最终结果。
specimen DOB diff.dob
1 A 2000-05-10 1
2 A 2002-04-13 1
3 B 2001-05-12 1
4 C 2003-06-01 0
5 B 2003-04-21 1
6 D 2000-10-20 0
7 C 2003-06-01 0
8 D 2000-10-20 0
9 E 2001-11-23 0
识别重复显然是容易的部分,如果实际重复具有不同的 DOB,我只是无法添加 1 和 0 的额外列。任何帮助将不胜感激。谢谢。
【问题讨论】:
标签: r duplicates date data-cleaning