使用 pivot_wider 从没有 values_from 列的逗号分隔向量创建唯一列答案

【问题标题】：Use pivot_wider to create unique columns from comma separated vector without values_from column使用 pivot_wider 从没有 values_from 列的逗号分隔向量创建唯一列
【发布时间】：2021-02-16 23:11:39
【问题描述】：

pivot_wider 有以下用例：

我有一个用逗号分隔的字符串的数据集。我想为每个逗号分隔值创建唯一的列，例如采用 1s（存在值）和 0s（不存在值）的虚拟变量。

我可以使用下面显示的方法来做到这一点。但是，我认为这是一种解决方法，因为我需要添加一个带有 value = 1 的列，然后在 pivot_widers values_from 参数中使用它。我尝试使用 values_from = 1 而不先创建新列（我认为 pivot_wider 可以即时创建值），但结果 values_from 使用 tidyeval 并选择第一列。我也尝试过完全不指定参数，但这也不起作用。

有没有更好的方法来使用pivot_wider 而无需为所有行创建一个值为1 的列？由于我确实经常使用这种“解决方法”，我只是想知道是否有更正式的方法可以达到相同的结果。

library(dplyr)
library(tidyr)

# data generating function
create_codes <- function(inp, len) {
  
  size <- round(runif(len, 1, 5))
  
  res <- vapply(seq_len(len),
                FUN.VALUE = character(1),
                FUN = function(x) {
                  paste(sample(inp, size[x]), collapse = ", ")
                })
  
}

# toy data
set.seed(123)
dat <- tibble(id = 1:100,
              codes = create_codes(10:25, 100))

# transform codes to unique columns
dat %>% 
  mutate(codes2 = strsplit(codes, ", "),
         # can pivot_wider work without this 'workaround' => 'value = 1'?
         value = 1) %>% 
  unnest(codes2) %>%
  arrange(codes2) %>% 
  pivot_wider(names_from = codes2,
              names_prefix = "code_",
              names_repair = "universal",
              values_from = value,
              values_fill = 0) 

#> # A tibble: 100 x 18
#>       id codes code_10 code_11 code_12 code_13 code_14 code_15 code_16 code_17
#>    <int> <chr>   <dbl>   <dbl>   <dbl>   <dbl>   <dbl>   <dbl>   <dbl>   <dbl>
#>  1    11 13, …       1       0       1       1       0       1       0       0
#>  2    13 23, …       1       0       0       0       0       0       0       1
#>  3    25 10, …       1       0       0       1       0       0       0       1
#>  4    30 15, …       1       0       0       0       0       1       0       0
#>  5    37 14, …       1       0       0       0       1       0       1       0
#>  6    47 20, …       1       0       0       0       0       0       0       0
#>  7    59 20, …       1       0       0       0       0       0       0       0
#>  8    60 19, …       1       0       0       0       0       0       0       0
#>  9    66 10, …       1       0       0       0       1       0       0       0
#> 10    67 13, …       1       0       1       1       0       0       0       0
#> # … with 90 more rows, and 8 more variables: code_18 <dbl>, code_19 <dbl>,
#> #   code_20 <dbl>, code_21 <dbl>, code_22 <dbl>, code_23 <dbl>, code_24 <dbl>,
#> #   code_25 <dbl>

^{由reprex package (v0.3.0) 于 2021-02-16 创建}

【问题讨论】：

您期望的代码是什么？应该在pivot_wider 里面。 values_from = 1 不起作用，因为它需要一个列名
我认为这里有答案stackoverflow.com/questions/39461539/…
@RonakShah：感谢您链接问题并回答如何解决这些问题。但据我所知，我关于如何在没有mutate(value = 1) 的情况下使用pivot_wider 的具体问题是，没有在那里讨论。

标签： r tidyr

【解决方案1】：

我们可以将values_fn 与length 一起使用，这样就无需创建“值”列。注意，这里我们假设 OP 的问题是要绕过 value 列的创建，而不是更改 strsplit

library(dplyr)
library(tidyr)
dat %>% 
     mutate(codes2 = strsplit(codes, ", ")) %>%
     unnest(codes2) %>% 
     arrange(codes2) %>%  
     pivot_wider(names_from = codes2,
            names_prefix = "code_",
            names_repair = "universal", values_from = codes2, 
        values_fill = 0, values_fn = length)

-输出

# A tibble: 100 x 18
      id codes code_10 code_11 code_12 code_13 code_14 code_15 code_16 code_17 code_18 code_19 code_20
   <int> <chr>   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>
 1    11 13, …       1       0       1       1       0       1       0       0       0       0       0
 2    13 23, …       1       0       0       0       0       0       0       1       0       0       0
 3    25 10, …       1       0       0       1       0       0       0       1       0       0       0
 4    30 15, …       1       0       0       0       0       1       0       0       0       0       0
 5    37 14, …       1       0       0       0       1       0       1       0       0       0       0
 6    47 20, …       1       0       0       0       0       0       0       0       0       0       1
 7    59 20, …       1       0       0       0       0       0       0       0       0       1       1
 8    60 19, …       1       0       0       0       0       0       0       0       0       1       0
 9    66 10, …       1       0       0       0       1       0       0       0       1       0       0
10    67 13, …       1       0       1       1       0       0       0       0       1       0       0
# … with 90 more rows, and 5 more variables: code_21 <int>, code_22 <int>, code_23 <int>, code_24 <int>,
#   code_25 <int>

如果有重复，那么我们也可以传递一个 lambda 函数

dat %>% 
     mutate(codes2 = strsplit(codes, ", ")) %>%
     unnest(codes2) %>% 
     arrange(codes2) %>%  
     pivot_wider(names_from = codes2,
            names_prefix = "code_",
            names_repair = "universal", values_from = codes2, 
        values_fill = 0, values_fn = list(codes2 = ~ +(length(.) > 0)))

或者使用cSplit_e可以更轻松地完成

library(splitstackshape)
cSplit_e(dat, "codes", sep=",", type = 'character', fill = 0, drop = TRUE)

【讨论】：

谢谢！在values_fn 中使用length 正是我想要的。
我认为获得1的最短方法是values_fn = function(x) 1，即使有重复也是如此。
@TimTeaFan 是的，或者使用~ 1
我使用的是 {tidyr} 1.1.0（CRAN 版本），这里不能直接使用 lambda 表示法 - 它必须被包装到一个命名列表中。
@TimTeaFan 是的，你是对的。它可能会在不同的版本中发生变化

【解决方案2】：

一种方法可能是：

dat %>%
 separate_rows(codes) %>%
 pivot_wider(values_from = "codes",
             names_from = "codes",
             names_prefix = "code_") %>%
 mutate(across(starts_with("code"), ~ +is.na(.))) 

      id code_19 code_14 code_17 code_24 code_16 code_21 code_15 code_12 code_10 code_22
   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>   <int>
 1     1       0       0       1       1       1       1       1       1       1       1
 2     2       1       1       0       0       0       0       1       1       1       1
 3     3       0       1       1       0       1       1       0       1       1       1
 4     4       1       0       1       0       1       0       1       0       0       1
 5     5       1       1       0       1       1       0       1       0       1       0
 6     6       1       1       1       1       0       1       1       1       1       1
 7     7       1       0       1       0       1       1       1       1       1       1
 8     8       1       1       1       1       1       1       0       0       1       1
 9     9       1       1       1       1       1       1       1       0       1       1
10    10       1       1       1       0       1       1       1       1       1       1
# … with 90 more rows, and 6 more variables: code_23 <int>, code_20 <int>, code_13 <int>,
#   code_11 <int>, code_18 <int>, code_25 <int>

【讨论】：