【发布时间】:2019-10-29 06:04:55
【问题描述】:
我正在定义一个函数来获取回归模型的预测值,其中包含不同亚组(亚群)的调查数据。我使用了调查包中的 svyglm 函数。
我的问题涉及处理 svyglm 函数中的子集选项。由于它使用非标准评估,我理解这意味着它不会将列名作为字符串。我尝试只使用不带字符串的列名并引用(enquo)并取消引用它(!!)。但是,这两个选项都不起作用。我也玩过 ensym() 和 expr() 但没有得到任何结果。
数据和图书馆
library(dplyr)
library(survey)
library(srvyr)
library(purrr)
library(rlang)
mtcars <- read.table("https://forge.scilab.org/index.php/p/rdataset/source/file/master/csv/datasets/mtcars.csv",
sep=",", header=TRUE)
mtcars_cplx <- mtcars %>% as_survey_design(id = cyl, weights = qsec)
carb <- c(1:8)
cyl <- c(4:8)
new_data <- expand.grid(carb, cyl)
colnames(new_data) <- c("carb", "cyl")
有礼貌
功能与输入
subpop_pred <- function(formula, data, subpop, new_data) {
subpop_quo <- enquo(subpop)
subpop_txt <- data$variables %>% select(!!subpop_quo) %>% colnames()
for(i in min(data$variables[subpop_txt]):max(data$variables[subpop_txt])){
reg <- svyglm(formula, data, subset=!!subpop_quo==i)
pred <- predict(reg, newdata=new_data)
if(exists("reg_end")==TRUE){
pred <- cbind(new_data, pred, confint(pred))
pred[subpop_txt] <- i
reg_end <- rbind(reg_end, pred)
} else {
reg_end <- cbind(new_data, pred, confint(pred))
reg_end[subpop_txt] <- i
}
}
}
subpop_pred(mpg ~ carb + cyl + carb*cyl,
data=mtcars_cplx,
new_data=new_data,
subpop=gear)
输出/错误
Error: Base operators are not defined for quosures.
Do you need to unquote the quosure?
# Bad:
myquosure == rhs
# Good:
!!myquosure == rhs
Call `rlang::last_error()` to see a backtrace
8. stop(cnd)
7. abort(paste_line("Base operators are not defined for quosures.",
"Do you need to unquote the quosure?", "", " # Bad:", bad,
"", " # Good:", good, ))
6. Ops.quosure(subpop_quo, i)
5. eval(subset, model.frame(design), parent.frame())
4. eval(subset, model.frame(design), parent.frame())
3. svyglm.survey.design(formula, data, subset = !!subpop_quo ==
i)
2. svyglm(formula, data, subset = !!subpop_quo == i)
1. subpop_pred(mpg ~ carb + cyl + carb * cyl, data = mtcars_cplx,
new_data = new_data, subpop = gear)
无限制
功能与输入
subpop_pred <- function(formula, data, subpop, new_data) {
subpop_quo <- enquo(subpop)
subpop_txt <- data$variables %>% select(!!subpop_quo) %>% colnames()
for(i in min(data$variables[subpop_txt]):max(data$variables[subpop_txt])){
reg <- svyglm(formula, data, subset=subpop==i)
pred <- predict(reg, newdata=new_data)
if(exists("reg_end")==TRUE){
pred <- cbind(new_data, pred, confint(pred))
pred[subpop_txt] <- i
reg_end <- rbind(reg_end, pred)
} else {
reg_end <- cbind(new_data, pred, confint(pred))
reg_end[subpop_txt] <- i
}
}
}
subpop_pred(mpg ~ carb + cyl + carb*cyl, data=mtcars_cplx, new_data=new_data, subpop=gear)
输出
Error in eval(subset, model.frame(design), parent.frame()) :
object 'gear' not found
5. eval(subset, model.frame(design), parent.frame())
4. eval(subset, model.frame(design), parent.frame())
3. svyglm.survey.design(formula, data, subset = subpop == i)
2. svyglm(formula, data, subset = subpop == i)
1. subpop_pred(mpg ~ carb + cyl + carb * cyl, data = mtcars_cplx,
new_data = new_data, subpop = gear)
您知道如何使该功能发挥作用吗?
【问题讨论】:
-
如何手动对函数中的数据集进行子集化并将其传递给
svyglm()的data参数而不是使用subset参数?您可以使用,例如,filter(),因为看起来您已经在使用 dplyr。 -
看起来
subset参数的工作方式类似于subset()函数,在函数中使用它可能是一种负担(对我来说,无论如何:-D)。我可以使用subset = rlang::eval_tidy( expr( !!subpop_quo == i), data = data)强制执行操作(使用lm()练习)。一旦我开始进入expr()和朋友的兔子洞,我就认为我做错了什么。 :-P 手动过滤并将其传递给模型函数对我来说似乎更简单(即dat = filter(data, !!subpop_quo == i))。 -
谢谢,@aosmith 成功了。我总是对使用 filter() 有点犹豫,因为我不知道是否会丢失某些信息。例如,在 Stata 中,有必要使用特定的调查命令来过滤子群体以获得正确的标准误差。但是,我会对此进行试验。不幸的是,由于我不小心删除了对您的评论的支持,因此我无法投票给您。
-
哦,对 Stata 很感兴趣。在 R 中,我总是将
subset参数与subset()互换使用,但在svyglm中可能会有所不同!