【发布时间】:2019-11-26 13:11:01
【问题描述】:
所以我有一个非常大的数据集,我想知道一个具有大约 400,000 个观察值的列的唯一值,每个观察值如下所示:
identifier:abzcd:def:RANDOMNUMBERSTRING 和 identifier:de:ghijklm:RANDOMNUMBERSTRING。
我只想要随机数字符串之前的部分的唯一匹配项。换句话说,我只想过滤掉重复的代码:identifier:LETTERS:LETTERS
unique 函数不起作用,看起来我需要确切知道要过滤哪些子字符串或子字符串要使用 substr 函数多长时间。关于如何做到这一点的任何建议?
以下是一些可以作为模型的数据:
randz <- data.frame(id =
sprintf("identifier:%s%s%s:%s%s%s:%s",
sample(letters, 1000,replace = T ),
sample(letters, 1000,replace = T ),
sample(letters, 1000,replace = T ),
sample(letters, 1000,replace = T ),
sample(letters, 1000,replace = T ),
sample(letters, 1000,replace = T ),
sample(6000:7000, 1000, replace = T )))
randz
【问题讨论】: