【发布时间】:2021-06-03 10:11:02
【问题描述】:
我正在使用 2 个数据框作为示例:
DF1 是主表,其中有一列包含通常有变量的方程
DF1 <- read.table(text =
"Unit Year Equation
1 2020 'x+2*y'
1 2021 'x+2*y'
1 2022 'x+2*y'
2 2020 'x'
3 2020 'max(y^2, y+2*z)'
3 2021 'max(y^2, y+2*z)'
4 2020 '5'
5 2020 '(x/y)+z'",
header = TRUE, stringsAsFactors = FALSE)
DF2 是参考或查找表,它为给定年份的变量分配值
DF2 <- read.table(text =
"Year Variable Value
2020 x 10
2021 x 15.5
2022 x 50
2020 y 1
2021 y 2
2022 y 3.5
2020 z 20
2021 z 34
2022 z 11",
header = TRUE, stringsAsFactors = FALSE)
我们的目标是匹配两个数据帧之间的变量和年份,以便在应用 eval(parse(text=Equation)) 或类似的东西后可以得出下表:
Unit Year Equation
1 2020 12
1 2021 19.5
1 2022 57
2 2020 10
3 2020 41
3 2021 70
4 2020 5
5 2020 30
目前我正在使用 for 和 if-else 循环来匹配年份并逐行替换变量。它工作正常,但运行它变得非常慢,因为 DF1 可能包含数千行和几个变量。我可以使用其他函数来实现相同的输出吗?
编辑 - 添加提到的循环以帮助比较:
library(dplyr)
library(reshape2)
DF2 = dcast(DF2, Year~Variable, value.var='Value')
#Adding in this line to avoid replacing "x" in "max":
DF1$Equation = gsub("max","placeholder",DF1$Equation)
for(i in 1:nrow(DF1)) {
for (j in 1:nrow(DF2)) {
if (DF1[i,]$Year==DF2[j,]$Year) {
#Every variable would be declared here:
DF1[i,]$Equation = gsub("x",DF2[j,]$x,DF1[i,]$Equation)
DF1[i,]$Equation = gsub("y",DF2[j,]$y,DF1[i,]$Equation)
DF1[i,]$Equation = gsub("z",DF2[j,]$z,DF1[i,]$Equation)
}
}
}
#Returning the function:
DF1$Equation = gsub("placeholder","max",DF1$Equation)
Results_DF1 = DF1 %>% rowwise() %>%
mutate(Equation = eval(parse(text=Equation)))
【问题讨论】:
-
您能否编辑 DF1 以获得正确的 R 方程,即 1+2x 无效。但是 1+2*x 是有效的
-
感谢您指出这一点!编辑以修复 DF1
-
你更喜欢base R还是tidyverse?
-
您能否为您的方法提供 if-else 循环以将其包含在基准比较中?
标签: r