由于dplyr 0.8.0,我们也可以使用group_split,它与base::split具有相似的行为
library(dplyr)
df %>% group_split(g)
#[[1]]
# A tibble: 5 x 3
# x y g
# <dbl> <dbl> <fct>
#1 -1.21 -1.45 A
#2 0.506 1.10 A
#3 -0.477 -1.17 A
#4 -0.110 1.45 A
#5 0.134 -0.969 A
#[[2]]
# A tibble: 5 x 3
# x y g
# <dbl> <dbl> <fct>
#1 0.277 0.575 B
#2 -0.575 -0.476 B
#3 -0.998 -2.18 B
#4 -0.511 -1.07 B
#5 -0.491 -1.11 B
#....
它还带有参数.keep(默认为TRUE)来指定是否应保留分组列。
df %>% group_split(g, .keep = FALSE)
#[[1]]
# A tibble: 5 x 2
# x y
# <dbl> <dbl>
#1 -1.21 -1.45
#2 0.506 1.10
#3 -0.477 -1.17
#4 -0.110 1.45
#5 0.134 -0.969
#[[2]]
# A tibble: 5 x 2
# x y
# <dbl> <dbl>
#1 0.277 0.575
#2 -0.575 -0.476
#3 -0.998 -2.18
#4 -0.511 -1.07
#5 -0.491 -1.11
#....
base::split 和dplyr::group_split 的区别在于group_split 不根据分组来命名列表的元素。所以
df1 <- df %>% group_split(g)
names(df1) #gives
NULL
而
df2 <- split(df, df$g)
names(df2) #gives
#[1] "A" "B" "C" "D" "E"
数据
set.seed(1234)
df <- data.frame(
x=rnorm(25),
y=rnorm(25),
g=rep(factor(LETTERS[1:5]), 5)
)