收集多组列答案

【问题标题】：Gather multiple sets of columns收集多组列
【发布时间】：2014-11-13 13:19:03
【问题描述】：

我有来自在线调查的数据，其中受访者会回答 1-3 次循环问题。调查软件 (Qualtrics) 将这些数据记录在多个列中——也就是说，调查中的 Q3.2 将有列 Q3.2.1.、Q3.2.2. 和 Q3.2.3.：

df <- data.frame(
  id = 1:10,
  time = as.Date('2009-01-01') + 0:9,
  Q3.2.1. = rnorm(10, 0, 1),
  Q3.2.2. = rnorm(10, 0, 1),
  Q3.2.3. = rnorm(10, 0, 1),
  Q3.3.1. = rnorm(10, 0, 1),
  Q3.3.2. = rnorm(10, 0, 1),
  Q3.3.3. = rnorm(10, 0, 1)
)

# Sample data

   id       time    Q3.2.1.     Q3.2.2.    Q3.2.3.     Q3.3.1.    Q3.3.2.     Q3.3.3.
1   1 2009-01-01 -0.2059165 -0.29177677 -0.7107192  1.52718069 -0.4484351 -1.21550600
2   2 2009-01-02 -0.1981136 -1.19813815  1.1750200 -0.40380049 -1.8376094  1.03588482
3   3 2009-01-03  0.3514795 -0.27425539  1.1171712 -1.02641801 -2.0646661 -0.35353058
...

我想将所有 QN.N* 列组合成整齐的单独 QN.N 列，最终得到如下结果：

   id       time loop_number        Q3.2        Q3.3
1   1 2009-01-01           1 -0.20591649  1.52718069
2   2 2009-01-02           1 -0.19811357 -0.40380049
3   3 2009-01-03           1  0.35147949 -1.02641801
...
11  1 2009-01-01           2 -0.29177677  -0.4484351
12  2 2009-01-02           2 -1.19813815  -1.8376094
13  3 2009-01-03           2 -0.27425539  -2.0646661
...
21  1 2009-01-01           3 -0.71071921 -1.21550600
22  2 2009-01-02           3  1.17501999  1.03588482
23  3 2009-01-03           3  1.11717121 -0.35353058
...

tidyr 库具有 gather() 函数，非常适合组合一个列集：

library(dplyr)
library(tidyr)
library(stringr)

df %>% gather(loop_number, Q3.2, starts_with("Q3.2")) %>% 
  mutate(loop_number = str_sub(loop_number,-2,-2)) %>%
  select(id, time, loop_number, Q3.2)


   id       time loop_number        Q3.2
1   1 2009-01-01           1 -0.20591649
2   2 2009-01-02           1 -0.19811357
3   3 2009-01-03           1  0.35147949
...
29  9 2009-01-09           3 -0.58581232
30 10 2009-01-10           3 -2.33393981

结果数据框有 30 行，正如预期的那样（10 个人，每个人 3 个循环）。但是，收集第二组列不能正常工作——它成功地生成了两个组合列 Q3.2 和 Q3.3，但最终得到 90 行而不是 30 行（所有 10 个人的组合，Q3.2 的 3 个循环, 和 Q3.3 的 3 个循环；实际数据中每组列的组合会大幅增加）：

df %>% gather(loop_number, Q3.2, starts_with("Q3.2")) %>% 
  gather(loop_number, Q3.3, starts_with("Q3.3")) %>%
  mutate(loop_number = str_sub(loop_number,-2,-2))


   id       time loop_number        Q3.2        Q3.3
1   1 2009-01-01           1 -0.20591649  1.52718069
2   2 2009-01-02           1 -0.19811357 -0.40380049
3   3 2009-01-03           1  0.35147949 -1.02641801
...
89  9 2009-01-09           3 -0.58581232 -0.13187024
90 10 2009-01-10           3 -2.33393981 -0.48502131

有没有办法像这样使用对gather() 的多次调用，像这样组合列的小子集，同时保持正确的行数？

【问题讨论】：

df %>% gather(loop_number, Q3.2, starts_with("Q3.")) 有什么问题
这让我得到一个包含 60 行的合并列。我想如果我随后对seperate() 进行某种调用以将Q3.3（及更高版本）值划分到它们自己的列中，那可能会起作用。但这似乎仍然是一个非常迂回的hacky解决方案......
使用spread 我现在正在研究解决方案：p
试试这个！ df %>% gather(question_number, Q3.2, starts_with("Q3.")) %>% mutate(loop_number = str_sub(question_number,-2,-2), question_number = str_sub(question_number,1,4)) %>% select(id, time, loop_number, question_number, Q3.2) %>% spread(key = question_number, value = Q3.2)
哦，这对这两个变量非常有效。不过，我很好奇它是否具有可扩展性——在我的真实数据中，我得到了 Q3.2-Q3.30，因此它需要大量单独调用 spread()。尽管多次调用似乎是不可避免的，但无论是一组有效的generate()s 还是嵌套的spread()s...

标签： r reshape dplyr qualtrics tidyr

【解决方案1】：

这种方法对我来说似乎很自然：

df %>%
  gather(key, value, -id, -time) %>%
  extract(key, c("question", "loop_number"), "(Q.\\..)\\.(.)") %>%
  spread(question, value)

首先收集所有问题列，使用extract() 分隔成question 和loop_number，然后将spread() 问题重新放入列中。

#>    id       time loop_number         Q3.2        Q3.3
#> 1   1 2009-01-01           1  0.142259203 -0.35842736
#> 2   1 2009-01-01           2  0.061034802  0.79354061
#> 3   1 2009-01-01           3 -0.525686204 -0.67456611
#> 4   2 2009-01-02           1 -1.044461185 -1.19662936
#> 5   2 2009-01-02           2  0.393808163  0.42384717

【讨论】：

你好。我有许多名称以 1 和 2 结尾的列，例如 age1、age2、weight1、weight2、blood1、blood2.... 我将如何在这里应用您的方法？
这部分是什么意思："(Q.\\..)\\.(.)" 我会搜索什么来解码那里发生的事情？
@mob 正则表达式
@mob "(Q.\\..)\\.(.)" 是一个带有括号的正则表达式，用于定义要提取到“question”和“loop_number”中的正则表达式组.更具体地说，在此示例中，带有“Q.\\..”表达式的键中的项目进入“问题”列（即“Q3.2”和“Q3.3”），然后是 next 之后的部分句号，表示为“.”，进入“loop_number”列。

【解决方案2】：

这可以使用reshape 来完成。不过dplyr 是可能的。

  colnames(df) <- gsub("\\.(.{2})$", "_\\1", colnames(df))
  colnames(df)[2] <- "Date"
  res <- reshape(df, idvar=c("id", "Date"), varying=3:8, direction="long", sep="_")
  row.names(res) <- 1:nrow(res)
  
   head(res)
  #  id       Date time       Q3.2       Q3.3
  #1  1 2009-01-01    1  1.3709584  0.4554501
  #2  2 2009-01-02    1 -0.5646982  0.7048373
  #3  3 2009-01-03    1  0.3631284  1.0351035
  #4  4 2009-01-04    1  0.6328626 -0.6089264
  #5  5 2009-01-05    1  0.4042683  0.5049551
  #6  6 2009-01-06    1 -0.1061245 -1.7170087

或使用dplyr

  library(tidyr)
  library(dplyr)
  colnames(df) <- gsub("\\.(.{2})$", "_\\1", colnames(df))

  df %>%
     gather(loop_number, "Q3", starts_with("Q3")) %>% 
     separate(loop_number,c("L1", "L2"), sep="_") %>% 
     spread(L1, Q3) %>%
     select(-L2) %>%
     head()
  #  id       time       Q3.2       Q3.3
  #1  1 2009-01-01  1.3709584  0.4554501
  #2  1 2009-01-01  1.3048697  0.2059986
  #3  1 2009-01-01 -0.3066386  0.3219253
  #4  2 2009-01-02 -0.5646982  0.7048373
  #5  2 2009-01-02  2.2866454 -0.3610573
  #6  2 2009-01-02 -1.7813084 -0.7838389

更新

使用新版本的tidyr，我们可以使用pivot_longer 来重塑多个列。（使用上面 gsub 中更改后的列名）

library(dplyr)
library(tidyr)
df %>% 
    pivot_longer(cols = starts_with("Q3"), 
          names_to = c(".value", "Q3"), names_sep = "_") %>% 
    select(-Q3)
# A tibble: 30 x 4
#      id time         Q3.2    Q3.3
#   <int> <date>      <dbl>   <dbl>
# 1     1 2009-01-01  0.974  1.47  
# 2     1 2009-01-01 -0.849 -0.513 
# 3     1 2009-01-01  0.894  0.0442
# 4     2 2009-01-02  2.04  -0.553 
# 5     2 2009-01-02  0.694  0.0972
# 6     2 2009-01-02 -1.11   1.85  
# 7     3 2009-01-03  0.413  0.733 
# 8     3 2009-01-03 -0.896 -0.271 
#9     3 2009-01-03  0.509 -0.0512
#10     4 2009-01-04  1.81   0.668 
# … with 20 more rows

注意：值不同，因为在创建输入数据集时没有设置种子

【讨论】：

哇，这完美。 tidyr 表面上是 reshape 的替代/升级——我想知道@hadley 是否知道用 dplyr 或 tidyr 做同样的事情的方法......
那是纯粹的魔法。我唯一添加的是mutate(loop_number = as.numeric(L2))，然后删除了L2，非常完美。
@Andrew 我个人更喜欢 reshape 方法，因为它的代码紧凑，虽然 dplyr 对于大数据集可能更快。
我一直无法理解 reshape() 函数，请参阅我的解决方案，了解我认为非常干净的 tidyr 实现。
tidyr::pivot_longer: 现在不仅是开发版 :)

【解决方案3】：

随着最近对melt.data.table 的更新，我们现在可以融合多个列。有了这个，我们可以做到：

require(data.table) ## 1.9.5
melt(setDT(df), id=1:2, measure=patterns("^Q3.2", "^Q3.3"), 
     value.name=c("Q3.2", "Q3.3"), variable.name="loop_number")
 #    id       time loop_number         Q3.2        Q3.3
 # 1:  1 2009-01-01           1 -0.433978480  0.41227209
 # 2:  2 2009-01-02           1 -0.567995351  0.30701144
 # 3:  3 2009-01-03           1 -0.092041353 -0.96024077
 # 4:  4 2009-01-04           1  1.137433487  0.60603396
 # 5:  5 2009-01-05           1 -1.071498263 -0.01655584
 # 6:  6 2009-01-06           1 -0.048376809  0.55889996
 # 7:  7 2009-01-07           1 -0.007312176  0.69872938

您可以从here获取开发版本。

【讨论】：

你好。我有许多名称以 1 和 2 结尾的列，例如 age1、age2、weight1、weight2、blood1、blood2.... 我将如何在这里应用您的方法？
skan，检查reshaping vignette。祝你好运！
我做到了，但我不知道如何正确嵌入正则表达式来拆分列名并将其传递给熔化。有模式的例子只有一个，太简单了。在我的情况下，我需要在 pattern() 中包含许多列名
假设你有这些列：paste0(rep(LETTERS, each=3), 1:3) 并且你想得到一个由字母和数字定义的长表
这是最简洁易懂的。

【解决方案4】：

它与 "tidyr" 和 "dplyr" 完全没有关系，但这里有另一个可供考虑的选项：merged.stack from my "splitstackshape" package, V1.4.0 及更高版本。

library(splitstackshape)
merged.stack(df, id.vars = c("id", "time"), 
             var.stubs = c("Q3.2.", "Q3.3."),
             sep = "var.stubs")
#     id       time .time_1       Q3.2.       Q3.3.
#  1:  1 2009-01-01      1. -0.62645381  1.35867955
#  2:  1 2009-01-01      2.  1.51178117 -0.16452360
#  3:  1 2009-01-01      3.  0.91897737  0.39810588
#  4:  2 2009-01-02      1.  0.18364332 -0.10278773
#  5:  2 2009-01-02      2.  0.38984324 -0.25336168
#  6:  2 2009-01-02      3.  0.78213630 -0.61202639
#  7:  3 2009-01-03      1. -0.83562861  0.38767161
# <<:::SNIP:::>>
# 24:  8 2009-01-08      3. -1.47075238 -1.04413463
# 25:  9 2009-01-09      1.  0.57578135  1.10002537
# 26:  9 2009-01-09      2.  0.82122120 -0.11234621
# 27:  9 2009-01-09      3. -0.47815006  0.56971963
# 28: 10 2009-01-10      1. -0.30538839  0.76317575
# 29: 10 2009-01-10      2.  0.59390132  0.88110773
# 30: 10 2009-01-10      3.  0.41794156 -0.13505460
#     id       time .time_1       Q3.2.       Q3.3.

【讨论】：

你好。我有许多名称以 1 和 2 结尾的列，例如 age1、age2、weight1、weight2、blood1、blood2.... 我将如何在这里应用您的方法？

【解决方案5】：

如果您像我一样，不知道如何为extract 使用“带有捕获组的正则表达式”，以下代码复制了 Hadleys 答案中的 extract(...) 行：

df %>% 
    gather(question_number, value, starts_with("Q3.")) %>%
    mutate(loop_number = str_sub(question_number,-2,-2), question_number = str_sub(question_number,1,4)) %>%
    select(id, time, loop_number, question_number, value) %>% 
    spread(key = question_number, value = value)

这里的问题是初始聚集形成一个键列，它实际上是两个键的组合。我选择在 cmets 的原始解决方案中使用 mutate 将此列拆分为具有相同信息的两列，一个 loop_number 列和一个 question_number 列。然后spread 可用于将长格式数据（即键值对(question_number, value)）转换为宽格式数据。

【讨论】：