使用公式预测 R 函数内部会产生“找不到对象”错误答案

【问题标题】：Using formula to predict inside of R function generates `object not found` error使用公式预测 R 函数内部会产生“找不到对象”错误
【发布时间】：2020-09-01 01:23:57
【问题描述】：

让我先说在 Stackoverflow 上我有类似的问题，但我没有看到他们的回答令我满意，并且给出的答案对我遇到的问题没有帮助。这也是一个很长的问题，但我试图让每个部分都简单易懂。

这是一个概念证明，您可以将公式分配给全局环境中的变量，并将公式变量传递给lm 函数并使用predict 进行预测。我通过几种方式做到彻底：

fake_data_1 <- data.frame(
  ecks = c(-19:20,-19:20,-19:20), 
  why = c((-19:20)^2, (-19:20)^3/40, abs(-19:20))
)

fake_data_2 <- data.frame(
  ecks =runif(22) 
)

#using basic formula
formula_used <- why ~ ecks 
lm_model <- lm(formula = formula_used, data = fake_data_1)
predict(lm_model, newdata = fake_data_2)


#converting string to formula
formula_used <- as.formula("why ~ ecks")
lm_model <- lm(formula = formula_used, data = fake_data_1)
predict(lm_model, newdata = fake_data_2)


#can use a basic string as well
formula_used <- "why ~ ecks"
lm_model <- lm(formula = formula_used, data = fake_data_1)
predict(lm_model, newdata = fake_data_2)

这是可以在函数内部执行这些过程的概念证明：

#can run this as a function
make_prediction <- function(data_in,y_var,x_var,new_data){
  formula_used <- as.formula(paste(y_var, x_var, sep = " ~ "))
  lm_model <- lm(formula = formula_used,data = data_in)
  predict(lm_model, newdata = data_in)
}
make_prediction(data_in = fake_data_1, y_var = "why", x_var = "ecks", new_data = fake_data_2)


#can explicitly set the environment of the formula: will make sense why I show this later
make_prediction_2 <- function(data_in,y_var,x_var,new_data){
  local_env = environment()
  formula_used <- as.formula(paste(y_var, x_var, sep = " ~ "),env = local_env)
  lm_model <- lm(formula = formula_used,data = data_in)
  predict(lm_model, newdata = new_data)
}

make_prediction_2(data_in = fake_data_1, y_var = "why", x_var = "ecks",new_data = fake_data_2)

正如我在评论中所说，为什么我稍后尝试显式分配环境是有道理的。

现在我正在尝试使用 nlme 包中的 lme 函数进行预测。顺便说一句，我不了解这个函数的统计数据，我只是根据我实验室其他人编写的代码来使用它。

这是概念证明，您可以使用此函数通过分配给变量的公式进行预测（暂时不处理称为“随机”的公式：

library(nlme)
#fake data for making model
fake_data_complicated_1 <- data.frame(ecks = c(-19:20,-19:20,-19:20), 
                                    why = c((-19:20)^3, (-19:20)^4/40, abs(-19:20)*100), 
                                    treatment = c(rep("a",times = 40),
                                                  rep("b", times = 40),
                                                  rep("control", times = 40)),
                                    ID = c(rep(c("q","w","e","r"),times = 10),
                                           rep(c("t","y","u","i"),times = 10),
                                           rep(c("h","j","k","l"),times = 10))
)

#fake data for making prediction
fake_data_complicated_2 <- data.frame(ecks = runif(120), 
                                      treatment = c(rep("a",times = 40),
                                                    rep("b", times = 40),
                                                    rep("control", times = 40)),
                                      ID = c(rep(c("q","w","e","r"),times = 10),
                                             rep(c("t","y","u","i"),times = 10),
                                             rep(c("h","j","k","l"),times = 10))
)

用一个基本公式就可以做到：

#can use basic formula as before
fixed_formula <- why ~ ecks * treatment
random_formula <- ~1|ID #not sure what this does in the model but that's not importante


lme_model <- lme(fixed = fixed_formula,
                 random = random_formula,
                 data = fake_data_complicated_1)


predict(lme_model, newdata = fake_data_complicated_2)

可以将字符串转换为公式：

#can use a pasted/converted formula as before
fixed_formula <- as.formula(
  paste("why", paste("ecks", "treatment", sep = " * "), sep = " ~ ")
)

lme_model <- lme(fixed = fixed_formula,
                 random = random_formula,
                 data = fake_data_complicated_1)


predict(lme_model, newdata = fake_data_complicated_2)

另一方面，lme 函数不会接受原始字符串，但这不是我的主要问题：

#can't use a raw string, this code generates an error
# fixed_formula <-  paste("why", paste("ecks", "treatment", sep = " * "), sep = " ~ ")
# 
# 
# lme_model <- lme(fixed = fixed_formula,
#                  random = random_formula,
#                  data = fake_data_complicated_1)
# 
# 
# predict(lme_model, newdata = fake_data_complicated_2)

这就是问题所在：当我尝试将这个 lme 代码放入一个函数时，我得到一个 object 'xxxxx' not found 错误：


#this function does not work!
make_prediction_nlm <- function(data_in,y_var,x_var,treatment_var ,id_var,new_data){
  
  formula_used_nlm <- as.formula(paste(y_var, paste(x_var, treatment_var, sep = " * "), sep = " ~ "))
  random_used <-  as.formula(paste("~1|",id_var,sep = ""))
  
  lme_model <- lme(fixed = formula_used_nlm,
                   random = random_used,
                   data = data_in)
  
  predict(lme_model, newdata = new_data)
}

make_prediction_nlm(data_in = fake_data_complicated_1, 
                y_var = "why", 
                x_var = "ecks", 
                treatment_var = "treatment",
                id_var = "ID",
                new_data = fake_data_complicated_1)

具体错误是Error in eval(mCall$fixed) : object 'formula_used_nlm' not found

这里的答案：Object not found error when passing model formula to another function 表明，正如我在上面所做的那样，我在函数中明确设置了公式的环境。我试过了，但它不起作用，产生了同样的错误：

#neither does this one!
make_prediction_2 <- function(data_in,y_var,x_var,treatment_var ,id_var){
  local_env = environment()
  formula_used_nlm <- as.formula(paste(y_var, paste(x_var, treatment_var, sep = " * "), sep = " ~ "),
   env = local_env)
  
random_used <- as.formula(paste("~1|",id_var,sep = ""), env = local_env)
  
  lme_model <- lme(fixed = formula_used_nlm,
                   random = random_used,
                   data = data_in)
  
  predict(lme_model, newdata = data_in)
}

make_prediction_2(data_in = fake_data_complicated_1,
 y_var = "why", 
x_var = "ecks", 
treatment_var = "treatment",
id_var = "ID")

我也许可以通过使用宏而不是函数来解决这个问题，但如果我能帮助它，如果它甚至可以工作的话，我不想涉足这个问题。现在我将只是复制和粘贴代码而不是编写函数。感谢阅读本文的各位。

【问题讨论】：

这能回答你的问题吗？ Using predict in a function call with NLME objects and a formula

标签： r nlme

【解决方案1】：

由于某种原因，lme 函数需要在调用中包含文字公式。它不希望在那里看到变量。它使用非标准评估来尝试将响应与固定效应项分开。在这种情况下，它确实与公式的环境无关。

解决此问题的最简单方法是将公式注入到带有do.call 的调用中。这应该工作

make_prediction_nlm <- function(data_in,y_var,x_var,treatment_var ,id_var,new_data){
  
  formula_used_nlm <- as.formula(paste(y_var, paste(x_var, treatment_var, sep = " * "), sep = " ~ "))
  random_used <-  as.formula(paste("~1|",id_var,sep = ""))
  
  lme_model <- do.call("lme", list(fixed = formula_used_nlm,
                   random = random_used,
                   data = quote(data_in)))
  
  predict(lme_model, newdata = new_data)
}

这只会在您传递newdata= 时真正影响predict 函数，因为它会返回查看原始调用是什么。

【讨论】：

【解决方案2】：

如果您查看nlme:::predict.lme（nlme 包命名空间中的隐藏函数），您会注意到这一行：

fixed <- eval(eval(mCall$fixed)[-2])

该函数试图提取固定组件，删除左侧（这是[-2] 所做的），然后重新评估。 @MrFlick 的解决方案有效，并且可能比我发现的更原则，即插入行

lme_model$call$fixed <- formula_used_nlm

就在函数中的predict() 调用之前。这会用评估值显式替换符号...

如果fixed <- eval(...) 行被替换为在父框架或公式环境中工作的eval() 的适当变体，或者...

【讨论】：