如何在 map2 函数 (purrr) 中对列进行子集化，以便向量长度一致？答案

【问题标题】：How do I subset columns within map2 function (purrr) so vector lengths agree?如何在 map2 函数 (purrr) 中对列进行子集化，以便向量长度一致？
【发布时间】：2020-05-19 13:41:25
【问题描述】：

如何在列子集上使用map2 函数（在purrr 包中）而不会出现“映射向量必须具有一致长度”的错误？子集列数等于另一个向量的长度。

这是我的数据：

library(tidyverse)
library(rstatix)

df <- tibble::tribble(
        ~id, ~edge, ~trt,         ~nl,          ~lm,         ~md,           ~c,        ~mgg,       ~mgcm,          ~p,         ~sp,         ~ap,         ~la,       ~lacm,      ~lacmd,
         1L,   "S",  "C", 1.802500944, -1.126394361, 1.747757193, -0.302911966, 2.942376992,  1.01978392, 1.603508872, 1166.214587, 1.104182097, 3.630403855, 0.925433649, 2.083967271,
         2L,   "S",  "T",          NA,           NA,          NA,           NA,          NA,          NA,          NA,          NA,          NA,          NA,          NA,          NA,
         3L,   "D",  "C",  1.59505822, -1.554475881, 1.173922711, -0.340665184, 1.854642163, 0.787036727,  1.40878277,  663.125567, 0.898799413, 3.332281129, 0.803131628, 1.841247752,
         4L,   "D",  "T", 1.342572531,  -2.21548947, 0.961702527, -0.331617331, 1.645569808, 0.750246559,  0.67441638, 63.63830862, 0.542966439, 2.416127169, 0.574963833, 1.529239129,
         5L,   "S",  "C", 1.802500944, -0.165110402, 2.162768585, -0.285160482, 3.136984959, 1.093832043, 2.209960854,   495.84715, 1.164570199, 4.799142774, 0.994423991, 2.034565573,
         6L,   "S",  "T", 2.141481291,  0.250369615, 2.439863935, -0.218925863, 3.358891011, 1.163094493,  2.30563155, 910.5631088, 1.198833277, 5.219802305, 1.097357732, 2.149000371
        )

head(df)
#> # A tibble: 6 x 15
#>      id edge  trt      nl     lm     md      c   mgg   mgcm      p     sp     ap
#>   <int> <chr> <chr> <dbl>  <dbl>  <dbl>  <dbl> <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
#> 1     1 S     C      1.80 -1.13   1.75  -0.303  2.94  1.02   1.60  1166.   1.10 
#> 2     2 S     T     NA    NA     NA     NA     NA    NA     NA       NA   NA    
#> 3     3 D     C      1.60 -1.55   1.17  -0.341  1.85  0.787  1.41   663.   0.899
#> 4     4 D     T      1.34 -2.22   0.962 -0.332  1.65  0.750  0.674   63.6  0.543
#> 5     5 S     C      1.80 -0.165  2.16  -0.285  3.14  1.09   2.21   496.   1.16 
#> 6     6 S     T      2.14  0.250  2.44  -0.219  3.36  1.16   2.31   911.   1.20 
#> # ... with 3 more variables: la <dbl>, lacm <dbl>, lacmd <dbl>

我已经成功运行map函数创建了一个包含12个模型的列表（我们称之为“models_1”）：

models_1 <- map(df[,4:15], ~(lm(.x ~df$edge*df$trt)))

现在，我想使用map2 创建第二组模型，它们引用我创建的第一组模型。我不断收到“映射向量必须具有一致长度”的错误，即使我在 map2 中调用的列数等于“models_1”中的模型数：

sim <- df %>%
  group_by(edge) %>%
  map2(df[, 4:15], models_1, ~(anova_test(.x~ df$trt, error = .y, type = 3)))

我收到以下错误：

Error: Mapped vectors must have consistent lengths:
* `.x` has length 15
* `.y` has length 12

这是我想做的一个工作示例（这仅适用于一个模型，但我有 12 个以上的模型，所以如果可能的话，我想使其自动化）：

model <- lm(nl ~ edge*trt, data = df)

df %>%
  group_by(edge) %>%
  anova_test(nl ~ trt, error = model, type = 3)

^{由reprex package (v0.3.0) 于 2020 年 5 月 19 日创建}

【问题讨论】：

我不知道如何解决它，但它有 15 个成员，因为 df 有 15 列，这就是进入管道的内容，你没有在 df[, 4:15 中减少它]
你有很多问题。首先，正如@Bruno 指出的那样，您不能在map2 的第一个参数中使用%>% 然后命名df，这违背了group_by 的目的。请改用.。其次，map2 需要相同长度的参数。一种选择是使用cross2。第三，如果你想group_by 并使用map，你需要使用nest。通常使用基本 R 中的split 会更容易。
感谢@Bruno 和@Ian Campbell 的建议。我已将代码更改为在map2 中使用. 而不是df。然而，在那之后我不知所措。我可能遗漏了一些东西，但似乎cross2 用于将.x 和.y 相乘，这并不是我想要的。我不能简单地首先从我的数据框中删除所有不需要的列，因为我需要离开 df$trt 列才能运行第二个函数。我确信这是基本的，但我对 R 相对较新，并且在我的知识范围内......谢谢！
@IanCampbell 我已经编辑了原始问题，并在帖子末尾包含了单个变量的工作示例。希望有帮助！
数据集太小，无法支持计算@Ian-campbell 你可能还想看看他之前放弃的帖子stackoverflow.com/questions/61827428

标签： r tidyverse purrr

【解决方案1】：

这或多或少是你想要做的吗？

library(tidyverse)
library(rstatix)


df <- tibble::tribble(
  ~id, ~edge, ~trt,         ~nl,          ~lm,         ~md,           ~c,        ~mgg,       ~mgcm,          ~p,         ~sp,         ~ap,         ~la,       ~lacm,      ~lacmd,
  1L,   "S",  "C", 1.802500944, -1.126394361, 1.747757193, -0.302911966, 2.942376992,  1.01978392, 1.603508872, 1166.214587, 1.104182097, 3.630403855, 0.925433649, 2.083967271,
  2L,   "S",  "T",          NA,           NA,          NA,           NA,          NA,          NA,          NA,          NA,          NA,          NA,          NA,          NA,
  3L,   "D",  "C",  1.59505822, -1.554475881, 1.173922711, -0.340665184, 1.854642163, 0.787036727,  1.40878277,  663.125567, 0.898799413, 3.332281129, 0.803131628, 1.841247752,
  4L,   "D",  "T", 1.342572531,  -2.21548947, 0.961702527, -0.331617331, 1.645569808, 0.750246559,  0.67441638, 63.63830862, 0.542966439, 2.416127169, 0.574963833, 1.529239129,
  5L,   "S",  "C", 1.802500944, -0.165110402, 2.162768585, -0.285160482, 3.136984959, 1.093832043, 2.209960854,   495.84715, 1.164570199, 4.799142774, 0.994423991, 2.034565573,
  6L,   "S",  "T", 2.141481291,  0.250369615, 2.439863935, -0.218925863, 3.358891011, 1.163094493,  2.30563155, 910.5631088, 1.198833277, 5.219802305, 1.097357732, 2.149000371
)


models_1 <- map(df[,4:15], ~ (lm(.x ~ edge * trt, data = df)))
models_2 <- map(df[,4:15], ~ (lm(.x ~ trt, data = df)))
purrr::map2(models_2, models_1, ~ anova_test(.x, error = .y, type = 3))

#> $nl
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd            F        p p<.05 ges
#> 1    trt   1   1 2.929636e+28 3.72e-15     *   1
#> 
#> $lm
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd     F     p p<.05   ges
#> 1    trt   1   1 0.003 0.965       0.003
#> 
#> $md
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd        F     p p<.05      ges
#> 1    trt   1   1 0.000496 0.986       0.000496
#> 
#> $c
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd     F     p p<.05 ges
#> 1    trt   1   1 8.964 0.205       0.9
#> 
#> $mgg
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd     F    p p<.05   ges
#> 1    trt   1   1 1.286 0.46       0.562
#> 
#> $mgcm
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd     F     p p<.05   ges
#> 1    trt   1   1 0.046 0.866       0.044
#> 
#> $p
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd    F     p p<.05   ges
#> 1    trt   1   1 0.41 0.637       0.291
#> 
#> $sp
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd     F     p p<.05   ges
#> 1    trt   1   1 0.443 0.626       0.307
#> 
#> $ap
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd      F     p p<.05   ges
#> 1    trt   1   1 22.512 0.132       0.957
#> 
#> $la
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd     F     p p<.05   ges
#> 1    trt   1   1 0.019 0.914       0.018
#> 
#> $lacm
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd     F     p p<.05   ges
#> 1    trt   1   1 2.578 0.355       0.721
#> 
#> $lacmd
#> ANOVA Table (type III tests)
#> 
#>   Effect DFn DFd      F     p p<.05   ges
#> 1    trt   1   1 21.387 0.136       0.955

【讨论】：

非常感谢@ChuckP！我欠你一个人情。我也学到了很多关于通过reprex等发布问题的知识，并且将来会发布更清晰的问题。
好的，这就是我在使用 Toothgrowth 获得您的数据之前试图在另一篇文章中向您展示的内容。也请关闭它。我知道这是很难提出问题的，当你说事后比较时，你让我偏离了轨道。这就是比较模型。
在进一步查看此解决方案后，它忽略了合理输出所必需的group_by。我没有设置使用该特定功能，但我必须使用分组数据运行 models_2。我花了一些时间试图弄清楚如何使用nest() 进行这项工作，但没有成功，我的谷歌侦查工作也是如此。很抱歉让@ChuckP 感到痛苦，但我在过去 3 天里一直在尝试解决这个问题，但还没有弄清楚
对我来说毫无意义。模型 1 和模型 2 之间的全部区别在于没有 edge 作为一个因素。不管怎样，祝你好运，狩猎愉快，我完全看不懂你的造型，我要退出了。

【解决方案2】：

感谢来自 rstudio 社区论坛的 Nirgrahamuk 的回答：

map(names(models_1) ,
    ~ anova_test(data=group_by(df,edge),
                 formula = as.formula(paste0(.x,"~ trt")),
                 error = models_1[[.x]],
                 type = 3))

（查看他们的完整答案：https://community.rstudio.com/t/trouble-using-group-by-and-map2-together/66730/8?u=mvula）

由 reprex 包于 2020-05-20 创建 (v0.3.0)

【讨论】：