【发布时间】:2019-04-11 17:32:29
【问题描述】:
我正在尝试匹配数据集中的所有客户,并为那些邮政编码匹配 100%、地址和电子邮件匹配 85% 的客户提供相似的 ID。我可以在R 中使用Record Linkage package 来做到这一点。现在我有这样的结果:
x <- data.frame(ID1=c(1,2, 3, 5, 10, 11, 12), ID2=c(2,5,4,11,11,18,18))
ID1 ID2
1 2
2 5
3 4
5 11
10 11
11 18
12 18
但我想将所有匹配 1,2,5,11,10,12,18 的 ID 组合在一起,所以我想给它们相同的 ID。
基本上我想要这样的输出:
Group Key
1 1
1 2
1 5
1 11
1 10
1 12
1 18
3 3
3 4
【问题讨论】:
-
欢迎来到 stackoverflow,@Ankita Gupta。从你的问题中我不确定你在寻找什么。确定每个 ID 应进入哪个组的模式是什么?