【发布时间】:2011-11-21 14:37:45
【问题描述】:
我对 R 有一个奇怪的问题,我似乎无法解决。
我尝试编写一个函数,对 R 中的逐步过程选择的模型执行 K 折交叉验证。(我知道逐步过程存在的问题,这纯粹是为了比较目的):)
现在的问题是,如果我定义函数参数 (linmod,k,direction) 并运行函数的内容,它会完美运行。但是,如果我将它作为函数运行,我会收到一条错误消息,提示找不到 datas.train 对象。
我尝试使用 debug() 单步执行该函数,并且该对象显然存在,但 R 表示当我实际运行该函数时它不存在。如果我只是使用 lm() 拟合模型,它可以正常工作,所以我认为这是循环中的 step 函数的问题,而在函数内部。 (尝试注释掉 step 命令,并将预测设置为来自普通线性模型的预测。)
#CREATE A LINEAR MODEL TO TEST FUNCTION
lm.cars <- lm(mpg~.,data=mtcars,x=TRUE,y=TRUE)
#THE FUNCTION
cv.step <- function(linmod,k=10,direction="both"){
response <- linmod$y
dmatrix <- linmod$x
n <- length(response)
datas <- linmod$model
form <- formula(linmod$call)
# generate indices for cross validation
rar <- n/k
xval.idx <- list()
s <- sample(1:n, n) # permutation of 1:n
for (i in 1:k) {
xval.idx[[i]] <- s[(ceiling(rar*(i-1))+1):(ceiling(rar*i))]
}
#error calculation
errors <- R2 <- 0
for (j in 1:k){
datas.test <- datas[xval.idx[[j]],]
datas.train <- datas[-xval.idx[[j]],]
test.idx <- xval.idx[[j]]
#THE MODELS+
lm.1 <- lm(form,data= datas.train)
lm.step <- step(lm.1,direction=direction,trace=0)
step.pred <- predict(lm.step,newdata= datas.test)
step.error <- sum((step.pred-response[test.idx])^2)
errors[j] <- step.error/length(response[test.idx])
SS.tot <- sum((response[test.idx] - mean(response[test.idx]))^2)
R2[j] <- 1 - step.error/SS.tot
}
CVerror <- sum(errors)/k
CV.R2 <- sum(R2)/k
res <- list()
res$CV.error <- CVerror
res$CV.R2 <- CV.R2
return(res)
}
#TESTING OUT THE FUNCTION
cv.step(lm.cars)
有什么想法吗?
【问题讨论】:
-
似乎存在范围界定问题,如您所知,
step(lm.1,direction=direction,trace=0)找不到datas.train。我自己看不到问题的原因。将datas.train分配为全局变量是一种解决方法,但不是特别令人满意的解决方法(datas.train <<- datas[-xval.idx[[j]],])。也许这应该迁移到 StackOverflow? -
具体来说,在
step()中调用add1(fit, scope$add, scale = scale, trace = trace, k = k, ...)会引发错误,其中add1()是stats:::add1.lm。 -
@jthetzel,确实。我解决类似问题的一种方法是循环内的另一个函数调用是全局分配它。