【发布时间】:2014-06-12 21:42:47
【问题描述】:
我正在运行一个包含 37 个变量的回归,并且我正在使用 stepAIC 来执行模型选择。我不想要一个预测模型。我只是想找出哪些变量具有最好的解释力。
我当前的代码如下:
fitObject <- lm(mydata)
DEP.select <- stepAIC(fitObject, direction = 'both', scope= list(lower = ~AUC), trace = F, k = log(obs))
# DEP is my dependent variable, and AUC is an independent variable I was want to have in my model.
问题是我的很多变量都具有高度相关性,而stepAIC 给我的结果包含其中几个高度相关的变量。请注意,我在模型中强制了 AUC,多重共线性是一个问题,尤其是在模型中选择与 AUC 高度相关的变量时。
有没有办法在函数中指定一些相关阈值或系数的 p 值?
或者欢迎任何可以解决我的问题的其他方法的 cmets。
谢谢!
【问题讨论】:
-
你还没有在 lm 中指定模型?
-
这是对数据框第一个变量的所有变量进行回归。同
fitObject <- lm(mydata[,1]~., data=mydata) -
我明白这一点,但它很容易出现各种不需要的东西。但要回答您的问题,不,您使用 AIC 作为模型选择,因此 pvalues 无关紧要。并且仅仅因为一些变量是共线的并不意味着它们是无用的。你的目标是什么?你想找到一个预测模型吗?您是否知道模型中应该包含哪些变量,即使它们的 p 值“不够好”?这些力学模型选择算法一般都不是很好
-
我了解模型选择的问题,这不是我的最终模型。我只想挑选出可以解释我的因变量的变量。所有变量都是相关的(有些是相似的),这就是为什么存在如此多的相关性。我已经更新了一些关于我的目标的问题。也感谢任何有关解决问题的其他方法的建议。
标签: r regression lm