【发布时间】:2011-03-03 19:06:45
【问题描述】:
我希望这不是“问和回答”的问题......这里是: (多重)共线性是指回归模型中预测变量之间的极高相关性。如何治愈它们...嗯,有时您不需要“治愈”共线性,因为它不会影响回归模型本身,而是解释单个预测变量的效果。
发现共线性的一种方法是将每个预测变量作为因变量,将其他预测变量作为自变量,确定 R2,如果它大于 0.9(或 0.95),我们可以认为预测器是多余的。这是一种“方法”……其他方法呢?其中一些是耗时的,例如从模型中排除预测变量并观察 b 系数变化 - 它们应该明显不同。
当然,我们必须始终牢记分析的具体背景/目标...有时,唯一的补救措施是重复研究,但现在,我对筛选冗余预测变量的各种方法感兴趣,当 (多重)共线性出现在回归模型中。
【问题讨论】:
-
我很高兴没有人将此标记为不够“程序化”,并且很多人对此投了赞成票。这是一个很好的问题,我们中的许多“用数据编程”的人都在苦苦思索。
-
好问题,好答案。非常有益的阅读 - 谢谢。
-
学分应该给我的朋友...她问我关于共线性的问题,在搜索 SO 上的主题后,我发现没有任何问题...这很奇怪,因为共线性问题在统计分析中很常见。谢谢小伙子们的这些好答案!
-
好东西,我真的很高兴看到在 SO 涌现出一个 R 社区。span>
-
这个问题似乎是题外话,因为它是关于统计实践的。它应该迁移到 CrossValidated (最初提出问题时不存在...)
标签: r statistics regression