【问题标题】:r- How to use iteration on a custom function that uses dplyrr-如何在使用 dplyr 的自定义函数上使用迭代
【发布时间】:2020-03-20 22:31:24
【问题描述】:

我想创建一个自定义函数来计算包含 100 多列的大型数据集中的分组百分比。因为我有很多列,所以我想做一个循环或 lapply 或其他东西以避免将函数输入 100 次以上。当我为每一列单独输入时,我编写的函数运行良好,但我无法弄清楚如何重复执行它。

这是一个简化的数据框和函数:

# load required libraries:
library(tidyverse)

df<-data.frame(sex=c('M','M','M','F','M','F','M',NA),
              school=c('A','A','A','A','B','B','B',NA),
              question1=c(NA,1,1,2,2,3,3,3),
              question2=c(2,NA,2,4,5,1,2,3))

 my_function<-function(dataset,question_number){

  question_number_enquo<-enquo(question_number)

  dataset%>%
    filter(!is.na(!!question_number_enquo)&!is.na(sex))%>%
    group_by(school,sex,!!question_number_enquo)%>%
    count(!!question_number_enquo)%>%
    summarise(number=sum(n))%>%
    mutate(percent=number/sum(number)*100)%>%
    ungroup()
}

当我在其中输入列名时,我的函数会起作用:

my_function(df,question1)

 A tibble: 5 x 5
  school sex   question1 number percent
  <fct>  <fct>     <dbl>  <int>   <dbl>
1 A      F             2      1     100
2 A      M             1      2     100
3 B      F             3      1     100
4 B      M             2      1      50
5 B      M             3      1      50

这是我在重申方面尝试过的方法。我想为每一列重复该功能(学校和性别除外,因为这些是我的组)。

question_col_names<-(df%>%select(-sex,-school)%>%colnames())

使用 lapply 和列名作为 quosure:

question_col_names_enquo<-enquo(question_col_names)
lapply(df,my_function(df,!!question_col_names_enquo))


 Error: Column `<chr>` must be length 7 (the number of rows) or one, not 2

尝试使用不带引号的列名:

lapply(df,my_function(df,question_col_names))

Error: Column `question_col_names` is unknown

尝试使用带引号的列名:

lapply(df,my_function(df,'question_col_names'))

Error: Column `"question_col_names"` can't be modified because it's a grouping variable

我也尝试过申请,得到了相同类型的错误信息:

apply(df,1,my_function(df,!!question_col_names_enquo))
Error: Column `<chr>` must be length 7 (the number of rows) or one, not 2

apply(df,1,my_function(df,question_col_names))
Error: Column `question_col_names` is unknown

apply(df,1,my_function(df,'question_col_names'))
Error: Column `"question_col_names"` can't be modified because it's a grouping variable

我还尝试了 for 循环的不同变体:

for (i in question_col_names){
  my_function(df,i)
}

Error: Column `i` is unknown


for (i in question_col_names){
   my_function(df,'i')
 }
Error: Column `"i"` can't be modified because it's a grouping variable

如何使用迭代让我的函数在所有列上重复?

我怀疑这与 dplyr 有关;我知道它在自定义函数中的行为很有趣,但我可以让它在我的函数中工作,而不是在迭代中。我对 Google 和 Stack Overflow 进行了深入研究,但没有找到任何答案。

提前致谢!

【问题讨论】:

    标签: r dplyr iteration tidyeval nse


    【解决方案1】:

    您的question_col_names 是字符串。您需要 sym 将字符串转换为函数内的变量

    library(tidyverse)
    
    df <- data.frame(
      sex = c("M", "M", "M", "F", "M", "F", "M", NA),
      school = c("A", "A", "A", "A", "B", "B", "B", NA),
      question1 = c(NA, 1, 1, 2, 2, 3, 3, 3),
      question2 = c(2, NA, 2, 4, 5, 1, 2, 3)
    )
    
    my_function <- function(dataset, question_number) {
      question_number_enquo <- sym(question_number)
    
      dataset %>%
        filter(!is.na(!!question_number_enquo) & !is.na(sex)) %>%
        group_by(school, sex, !!question_number_enquo) %>%
        count(!!question_number_enquo) %>%
        summarise(number = sum(n)) %>%
        mutate(percent = number / sum(number) * 100) %>%
        ungroup()
    }
    
    my_function(df, "question1")
    #> # A tibble: 5 x 5
    #>   school sex   question1 number percent
    #>   <fct>  <fct>     <dbl>  <int>   <dbl>
    #> 1 A      F             2      1     100
    #> 2 A      M             1      2     100
    #> 3 B      F             3      1     100
    #> 4 B      M             2      1      50
    #> 5 B      M             3      1      50
    
    question_col_names <- (df %>% select(-sex, -school) %>% colnames())
    
    result <- map_df(question_col_names, ~ my_function(df, .x))
    result
    #> # A tibble: 10 x 6
    #>    school sex   question1 number percent question2
    #>    <fct>  <fct>     <dbl>  <int>   <dbl>     <dbl>
    #>  1 A      F             2      1     100        NA
    #>  2 A      M             1      2     100        NA
    #>  3 B      F             3      1     100        NA
    #>  4 B      M             2      1      50        NA
    #>  5 B      M             3      1      50        NA
    #>  6 A      F            NA      1     100         4
    #>  7 A      M            NA      2     100         2
    #>  8 B      F            NA      1     100         1
    #>  9 B      M            NA      1      50         2
    #> 10 B      M            NA      1      50         5
    

    如果将函数结果转换为长格式可能会更好

    my_function2 <- function(dataset, question_number) {
      question_number_enquo <- sym(question_number)
    
      res <- dataset %>%
        filter(!is.na(!!question_number_enquo) & !is.na(sex)) %>%
        group_by(school, sex, !!question_number_enquo) %>%
        count(!!question_number_enquo) %>%
        summarise(number = sum(n)) %>%
        mutate(percent = number / sum(number) * 100) %>%
        ungroup() %>% 
        gather(key = 'question', value, -school, -sex, -number, -percent)
      return(res)
    
    }
    
    result2 <- map_df(question_col_names, ~ my_function2(df, .x))
    result2
    #> # A tibble: 10 x 6
    #>    school sex   number percent question  value
    #>    <fct>  <fct>  <int>   <dbl> <chr>     <dbl>
    #>  1 A      F          1     100 question1     2
    #>  2 A      M          2     100 question1     1
    #>  3 B      F          1     100 question1     3
    #>  4 B      M          1      50 question1     2
    #>  5 B      M          1      50 question1     3
    #>  6 A      F          1     100 question2     4
    #>  7 A      M          2     100 question2     2
    #>  8 B      F          1     100 question2     1
    #>  9 B      M          1      50 question2     2
    #> 10 B      M          1      50 question2     5
    

    reprex package (v0.3.0) 于 2019 年 11 月 25 日创建

    【讨论】:

      【解决方案2】:

      如果我理解正确,您可以使用gathernestmap

      library(tidyverse)
      
      df %>% 
        rownames_to_column("ID") %>% 
        gather(question, value, -ID, -sex, -school) %>% 
        nest(-sex, -school) %>% 
        mutate(results = purrr::map(data, function(x) { 
          x %>% 
            group_by(question)%>%
            summarise(number=sum(!is.na(value))) %>%
            mutate(percent=number/sum(number)*100)%>%
            ungroup()})) %>% 
        select(sex, school, results) %>%
        unnest(results) 
      

      结果:

         sex   school question  number percent
         <fct> <fct>  <chr>      <int>   <dbl>
       1 M     A      question1      3      50
       2 M     A      question2      3      50
       3 F     A      question1      1      50
       4 F     A      question2      1      50
       5 M     B      question1      2      50
       6 M     B      question2      2      50
       7 F     B      question1      1      50
       8 F     B      question2      1      50
       9 NA    NA     question1      1      50
      10 NA    NA     question2      1      50
      

      【讨论】:

      • 我正在查看每个性别/学校组中每个答案的百分比。我修改了您的代码,因此“百分比”列指的是该组中每个答案的百分比: df%>%gather(question,value,-sex,-school)%>% group_by(question,sex,school)%>% nest()%>% mutate(results=map(data,function(x){ x%>%filter(!is.na(value))%>%count(value)%>% mutate(percent=n/sum(n)*100)%>%ungroup()}))%>%unnest (结果)谢谢!我没有做太多嵌套,所以这很有帮助。
      • 添加rownames_to_column的重要性是什么?无论哪种方式,我都会得到相同的结果。
      • 不客气,很高兴我能提供帮助。请注意,您不需要group_by() 然后nest(),您应该nest() you suppose to nest`您的group_by 变量。我使用rownames_to_column 为每一行创建一个键/ID。当您 gather()spread 时,您需要一个密钥,以便 R 知道哪一行属于哪个参与者。尝试在这里查看有关tidyverse惊人世界的更多信息:) - tidyverse.org
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-12-06
      • 2017-11-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-06-11
      • 1970-01-01
      相关资源
      最近更新 更多