【发布时间】:2016-01-22 04:25:52
【问题描述】:
我有一个包含电子邮件通信的数据集。一个例子:
library(dplyr)
library(tidyr)
dat <- data_frame('date' = Sys.time(),
'from' = c("person1@gmail.com", "person2@yahoo.com",
"person3@hotmail.com", "person4@msn.com"),
'to' = c("person2@yahoo.com,person3@hotmail.com", "person3@hotmail.com",
"person4@msn.com,person1@gmail.com,person2@yahoo.com", "person1@gmail.com"))
在上面的例子中,很容易看出我需要多少个变量,所以我可以执行以下操作:
dat %>% separate(to, into = paste0("to_", 1:3), sep = ",", extra = "merge", fill = "right")
#Source: local data frame [4 x 5]
#
# date from to_1 to_2 to_3
# (time) (chr) (chr) (chr) (chr)
#1 2015-10-22 14:52:41 person1@gmail.com person2@yahoo.com person3@hotmail.com NA
#2 2015-10-22 14:52:41 person2@yahoo.com person3@hotmail.com NA NA
#3 2015-10-22 14:52:41 person3@hotmail.com person4@msn.com person1@gmail.com person2@yahoo.com
#4 2015-10-22 14:52:41 person4@msn.com person1@gmail.com NA NA
但是,我的数据集有 4,000 条记录,我不希望通过查找其中元素数量最多的行来确定需要创建多少变量。我处理这个问题的方法是首先自己拆分列并获取每个拆分的长度,然后找到最大值:
n_vars <- dat$to %>% str_split(",") %>% lapply(function(z) length(z)) %>% unlist() %>% max()
但这似乎效率低下。有更好的方法吗?
【问题讨论】:
-
也可以
library(data.table) ; cbind(dat, setDT(dat)[, tstrsplit(to, ",")]) -
似乎是一个足够合理的解决方案,而不是加载另一个包。如果您已经在加载
tidyverse可以使用map_dbl并删除unlist使其稍微干净一些。dat$to %>% str_split(",") %>% map_dbl(~ length(.)) %>% max() -
您可以更巧妙地计算 n_vars 而无需使用
n_vars <- dat$to %>% str_count(pattern = ",") %>% max() + 1进行拆分