【发布时间】:2020-10-14 19:14:44
【问题描述】:
我为这个冗长的问题道歉,但过了一段时间我自己也想不出解决办法。
我有这个玩具数据框
set.seed(23)
df <- tibble::tibble(
id = paste0("00", 1:6),
cond = c(1, 1, 2, 2, 3, 3),
A_1 = sample(0:9, 6, replace = TRUE), A_2 = sample(0:9, 6, replace = TRUE), A_3 = sample(0:9, 6, replace = TRUE),
B_1 = sample(0:9, 6, replace = TRUE), B_2 = sample(0:9, 6, replace = TRUE), B_3 = sample(0:9, 6, replace = TRUE),
C_1 = sample(0:9, 6, replace = TRUE), C_2 = sample(0:9, 6, replace = TRUE), C_3 = sample(0:9, 6, replace = TRUE)
)
# A tibble: 6 x 11
# id cond A_1 A_2 A_3 B_1 B_2 B_3 C_1 C_2 C_3
# <chr> <dbl> <int> <int> <int> <int> <int> <int> <int> <int> <int>
# 1 001 1 6 3 9 5 0 5 6 0 6
# 2 002 1 4 5 0 8 5 0 1 6 6
# 3 003 2 4 2 8 8 8 6 5 2 5
# 4 004 2 4 4 0 7 2 6 7 5 7
# 5 005 3 1 7 0 9 9 0 5 7 8
# 6 006 3 3 8 7 0 2 5 0 9 4
我想创建三个变量 A_def、B_def、C_def,它们只取对应变量 LETTER_NUMBER> 之一的值,具体取决于它们的后缀是等于变量cond。
例如,对于cond == 1、A_def 的值应该来自A_1、B_def 的值应该来自B_1、C_def 的值应该来自C_1 的行。同样,如果 cond == 2,*_def 列应该具有来自相应 *_2 变量的值。
我设法通过两种方式实现了我想要的输出:一种是硬编码(如果cond 包含许多值,可能会避免),另一种是使用tidyr 的旋转函数。
硬编码解决方案:
df %>%
mutate(
A_def = ifelse(cond == 1, A_1, ifelse(cond == 2, A_2, A_3)),
B_def = ifelse(cond == 1, B_1, ifelse(cond == 2, B_2, B_3)),
C_def = ifelse(cond == 1, C_1, ifelse(cond == 2, C_2, C_3))
) %>%
select(id, cond, contains("_def"))
tidyr的解决方案:
df %>%
pivot_longer(cols = contains("_")) %>%
mutate(
number = gsub("[A-Za-z_]", "", name),
name = gsub("[^A-Za-z]", "", name)
) %>%
filter(cond == number) %>%
pivot_wider(id_cols = c(id, cond), names_from = name, values_from = value, names_glue = "{name}_def")
两种情况下的输出
# A tibble: 6 x 5
# id cond A_def B_def C_def
# <chr> <dbl> <int> <int> <int>
# 1 001 1 6 5 6
# 2 002 1 4 8 1
# 3 003 2 2 8 2
# 4 004 2 4 2 5
# 5 005 3 0 0 8
# 6 006 3 7 5 4
现在,我想知道是否可以使用mutate 和/或across 以动态方式获得相同的输出(可能在mutate 中使用ifelse 语句?)。我尝试了以下代码 sn-ps 但结果并不如预期。在其中一个中,我尝试将变量名称作为ifelse 语句中的符号,但出现错误。
df %>%
mutate(across(paste0(c("A", "B", "C"), "_1"),
~ifelse(cond == 1, cur_column(),
ifelse(cond == 2, cur_column(), paste0(gsub("[^A-Za-z]", "", cur_column()), "_3"))))) %>%
select(id, cond, contains("_1"))
df %>%
mutate_at(paste0(c("A", "B", "C"), "_1"),
~ifelse(cond == 1, ., ifelse(cond == 2, ., paste0(., "_2")))) %>%
select(id, cond, contains("_1"))
df %>%
mutate_at(paste0(c("A", "B", "C"), "_1"),
~ifelse(cond == 1, !!!rlang::syms(paste0(c("A", "B", "C"), "_1")),
ifelse(cond == 2, !!!rlang::syms(paste0(c("A", "B", "C"), "_2")),
!!!rlang::syms(paste0(c("A", "B", "C"), "_3")))))
问题:有没有办法使用dplyr 的语句(例如mutate(或其被取代的作用域变体)和/或across)获得与上述相同的所需输出?
【问题讨论】:
-
我认为您的
tidyr解决方案是解决此类问题的标准方法。 -
正如@RonakShah 所说,比您的
tidyr解决方案更通用的解决方案并不明显。 [顺便说一句,在pivot_longer中使用names_sep可以使它更优雅一点...] -
谢谢大家的意见,不知道有没有简单的方法使用
mutate或者我只是在找暗物质..