【发布时间】:2020-03-20 22:31:24
【问题描述】:
我想创建一个自定义函数来计算包含 100 多列的大型数据集中的分组百分比。因为我有很多列,所以我想做一个循环或 lapply 或其他东西以避免将函数输入 100 次以上。当我为每一列单独输入时,我编写的函数运行良好,但我无法弄清楚如何重复执行它。
这是一个简化的数据框和函数:
# load required libraries:
library(tidyverse)
df<-data.frame(sex=c('M','M','M','F','M','F','M',NA),
school=c('A','A','A','A','B','B','B',NA),
question1=c(NA,1,1,2,2,3,3,3),
question2=c(2,NA,2,4,5,1,2,3))
my_function<-function(dataset,question_number){
question_number_enquo<-enquo(question_number)
dataset%>%
filter(!is.na(!!question_number_enquo)&!is.na(sex))%>%
group_by(school,sex,!!question_number_enquo)%>%
count(!!question_number_enquo)%>%
summarise(number=sum(n))%>%
mutate(percent=number/sum(number)*100)%>%
ungroup()
}
当我在其中输入列名时,我的函数会起作用:
my_function(df,question1)
A tibble: 5 x 5
school sex question1 number percent
<fct> <fct> <dbl> <int> <dbl>
1 A F 2 1 100
2 A M 1 2 100
3 B F 3 1 100
4 B M 2 1 50
5 B M 3 1 50
这是我在重申方面尝试过的方法。我想为每一列重复该功能(学校和性别除外,因为这些是我的组)。
question_col_names<-(df%>%select(-sex,-school)%>%colnames())
使用 lapply 和列名作为 quosure:
question_col_names_enquo<-enquo(question_col_names)
lapply(df,my_function(df,!!question_col_names_enquo))
Error: Column `<chr>` must be length 7 (the number of rows) or one, not 2
尝试使用不带引号的列名:
lapply(df,my_function(df,question_col_names))
Error: Column `question_col_names` is unknown
尝试使用带引号的列名:
lapply(df,my_function(df,'question_col_names'))
Error: Column `"question_col_names"` can't be modified because it's a grouping variable
我也尝试过申请,得到了相同类型的错误信息:
apply(df,1,my_function(df,!!question_col_names_enquo))
Error: Column `<chr>` must be length 7 (the number of rows) or one, not 2
apply(df,1,my_function(df,question_col_names))
Error: Column `question_col_names` is unknown
apply(df,1,my_function(df,'question_col_names'))
Error: Column `"question_col_names"` can't be modified because it's a grouping variable
我还尝试了 for 循环的不同变体:
for (i in question_col_names){
my_function(df,i)
}
Error: Column `i` is unknown
for (i in question_col_names){
my_function(df,'i')
}
Error: Column `"i"` can't be modified because it's a grouping variable
如何使用迭代让我的函数在所有列上重复?
我怀疑这与 dplyr 有关;我知道它在自定义函数中的行为很有趣,但我可以让它在我的函数中工作,而不是在迭代中。我对 Google 和 Stack Overflow 进行了深入研究,但没有找到任何答案。
提前致谢!
【问题讨论】:
标签: r dplyr iteration tidyeval nse