r-如何在使用 dplyr 的自定义函数上使用迭代答案

【问题标题】：r- How to use iteration on a custom function that uses dplyrr-如何在使用 dplyr 的自定义函数上使用迭代
【发布时间】：2020-03-20 22:31:24
【问题描述】：

我想创建一个自定义函数来计算包含 100 多列的大型数据集中的分组百分比。因为我有很多列，所以我想做一个循环或 lapply 或其他东西以避免将函数输入 100 次以上。当我为每一列单独输入时，我编写的函数运行良好，但我无法弄清楚如何重复执行它。

这是一个简化的数据框和函数：

# load required libraries:
library(tidyverse)

df<-data.frame(sex=c('M','M','M','F','M','F','M',NA),
              school=c('A','A','A','A','B','B','B',NA),
              question1=c(NA,1,1,2,2,3,3,3),
              question2=c(2,NA,2,4,5,1,2,3))

 my_function<-function(dataset,question_number){

  question_number_enquo<-enquo(question_number)

  dataset%>%
    filter(!is.na(!!question_number_enquo)&!is.na(sex))%>%
    group_by(school,sex,!!question_number_enquo)%>%
    count(!!question_number_enquo)%>%
    summarise(number=sum(n))%>%
    mutate(percent=number/sum(number)*100)%>%
    ungroup()
}

当我在其中输入列名时，我的函数会起作用：

my_function(df,question1)

 A tibble: 5 x 5
  school sex   question1 number percent
  <fct>  <fct>     <dbl>  <int>   <dbl>
1 A      F             2      1     100
2 A      M             1      2     100
3 B      F             3      1     100
4 B      M             2      1      50
5 B      M             3      1      50

这是我在重申方面尝试过的方法。我想为每一列重复该功能（学校和性别除外，因为这些是我的组）。

question_col_names<-(df%>%select(-sex,-school)%>%colnames())

使用 lapply 和列名作为 quosure：

question_col_names_enquo<-enquo(question_col_names)
lapply(df,my_function(df,!!question_col_names_enquo))


 Error: Column `<chr>` must be length 7 (the number of rows) or one, not 2

尝试使用不带引号的列名：

lapply(df,my_function(df,question_col_names))

Error: Column `question_col_names` is unknown

尝试使用带引号的列名：

lapply(df,my_function(df,'question_col_names'))

Error: Column `"question_col_names"` can't be modified because it's a grouping variable

我也尝试过申请，得到了相同类型的错误信息：

apply(df,1,my_function(df,!!question_col_names_enquo))
Error: Column `<chr>` must be length 7 (the number of rows) or one, not 2

apply(df,1,my_function(df,question_col_names))
Error: Column `question_col_names` is unknown

apply(df,1,my_function(df,'question_col_names'))
Error: Column `"question_col_names"` can't be modified because it's a grouping variable

我还尝试了 for 循环的不同变体：

for (i in question_col_names){
  my_function(df,i)
}

Error: Column `i` is unknown


for (i in question_col_names){
   my_function(df,'i')
 }
Error: Column `"i"` can't be modified because it's a grouping variable

如何使用迭代让我的函数在所有列上重复？

我怀疑这与 dplyr 有关；我知道它在自定义函数中的行为很有趣，但我可以让它在我的函数中工作，而不是在迭代中。我对 Google 和 Stack Overflow 进行了深入研究，但没有找到任何答案。

提前致谢！

【问题讨论】：

标签： r dplyr iteration tidyeval nse

【解决方案1】：

您的question_col_names 是字符串。您需要 sym 将字符串转换为函数内的变量

library(tidyverse)

df <- data.frame(
  sex = c("M", "M", "M", "F", "M", "F", "M", NA),
  school = c("A", "A", "A", "A", "B", "B", "B", NA),
  question1 = c(NA, 1, 1, 2, 2, 3, 3, 3),
  question2 = c(2, NA, 2, 4, 5, 1, 2, 3)
)

my_function <- function(dataset, question_number) {
  question_number_enquo <- sym(question_number)

  dataset %>%
    filter(!is.na(!!question_number_enquo) & !is.na(sex)) %>%
    group_by(school, sex, !!question_number_enquo) %>%
    count(!!question_number_enquo) %>%
    summarise(number = sum(n)) %>%
    mutate(percent = number / sum(number) * 100) %>%
    ungroup()
}

my_function(df, "question1")
#> # A tibble: 5 x 5
#>   school sex   question1 number percent
#>   <fct>  <fct>     <dbl>  <int>   <dbl>
#> 1 A      F             2      1     100
#> 2 A      M             1      2     100
#> 3 B      F             3      1     100
#> 4 B      M             2      1      50
#> 5 B      M             3      1      50

question_col_names <- (df %>% select(-sex, -school) %>% colnames())

result <- map_df(question_col_names, ~ my_function(df, .x))
result
#> # A tibble: 10 x 6
#>    school sex   question1 number percent question2
#>    <fct>  <fct>     <dbl>  <int>   <dbl>     <dbl>
#>  1 A      F             2      1     100        NA
#>  2 A      M             1      2     100        NA
#>  3 B      F             3      1     100        NA
#>  4 B      M             2      1      50        NA
#>  5 B      M             3      1      50        NA
#>  6 A      F            NA      1     100         4
#>  7 A      M            NA      2     100         2
#>  8 B      F            NA      1     100         1
#>  9 B      M            NA      1      50         2
#> 10 B      M            NA      1      50         5

如果将函数结果转换为长格式可能会更好

my_function2 <- function(dataset, question_number) {
  question_number_enquo <- sym(question_number)

  res <- dataset %>%
    filter(!is.na(!!question_number_enquo) & !is.na(sex)) %>%
    group_by(school, sex, !!question_number_enquo) %>%
    count(!!question_number_enquo) %>%
    summarise(number = sum(n)) %>%
    mutate(percent = number / sum(number) * 100) %>%
    ungroup() %>% 
    gather(key = 'question', value, -school, -sex, -number, -percent)
  return(res)

}

result2 <- map_df(question_col_names, ~ my_function2(df, .x))
result2
#> # A tibble: 10 x 6
#>    school sex   number percent question  value
#>    <fct>  <fct>  <int>   <dbl> <chr>     <dbl>
#>  1 A      F          1     100 question1     2
#>  2 A      M          2     100 question1     1
#>  3 B      F          1     100 question1     3
#>  4 B      M          1      50 question1     2
#>  5 B      M          1      50 question1     3
#>  6 A      F          1     100 question2     4
#>  7 A      M          2     100 question2     2
#>  8 B      F          1     100 question2     1
#>  9 B      M          1      50 question2     2
#> 10 B      M          1      50 question2     5

^{由reprex package (v0.3.0) 于 2019 年 11 月 25 日创建}

【讨论】：

【解决方案2】：

如果我理解正确，您可以使用gather、nest 和map：

library(tidyverse)

df %>% 
  rownames_to_column("ID") %>% 
  gather(question, value, -ID, -sex, -school) %>% 
  nest(-sex, -school) %>% 
  mutate(results = purrr::map(data, function(x) { 
    x %>% 
      group_by(question)%>%
      summarise(number=sum(!is.na(value))) %>%
      mutate(percent=number/sum(number)*100)%>%
      ungroup()})) %>% 
  select(sex, school, results) %>%
  unnest(results)

结果：

   sex   school question  number percent
   <fct> <fct>  <chr>      <int>   <dbl>
 1 M     A      question1      3      50
 2 M     A      question2      3      50
 3 F     A      question1      1      50
 4 F     A      question2      1      50
 5 M     B      question1      2      50
 6 M     B      question2      2      50
 7 F     B      question1      1      50
 8 F     B      question2      1      50
 9 NA    NA     question1      1      50
10 NA    NA     question2      1      50

【讨论】：

我正在查看每个性别/学校组中每个答案的百分比。我修改了您的代码，因此“百分比”列指的是该组中每个答案的百分比: df%>%gather(question,value,-sex,-school)%>% group_by(question,sex,school)%>% nest()%>% mutate(results=map(data,function(x){ x%>%filter(!is.na(value))%>%count(value)%>% mutate(percent=n/sum(n)*100)%>%ungroup()}))%>%unnest （结果）谢谢！我没有做太多嵌套，所以这很有帮助。
添加rownames_to_column的重要性是什么？无论哪种方式，我都会得到相同的结果。
不客气，很高兴我能提供帮助。请注意，您不需要group_by() 然后nest()，您应该nest() you suppose to nest`您的group_by 变量。我使用rownames_to_column 为每一行创建一个键/ID。当您 gather() 或 spread 时，您需要一个密钥，以便 R 知道哪一行属于哪个参与者。尝试在这里查看有关tidyverse惊人世界的更多信息:) - tidyverse.org