系数的符号可能会根据其与其他系数的相关性而改变。正如@TarJae 所指出的,这似乎是(或对应于?)辛普森悖论的一个例子,它描述了相关符号可能反转的情况,具体取决于我们是否以另一个变量为条件。
这是一个具体示例,其中我创建了两个自变量 x1 和 x2,它们都与 y 高度相关,但是当它们组合时,x2 的系数会反转符号:
# specially chosen seed; most seeds' result isn't as dramatic
set.seed(410)
df1 <- data.frame(y = 1:10,
x1 = rnorm(10, 1:10),
x2 = rnorm(10, 1:10))
lm(y ~ ., df1)
Call:
lm(formula = y ~ ., data = df1)
Coefficients:
(Intercept) x1 x2
-0.2634 1.3990 -0.4792
这个结果不是错误的,而是出现在这里(我认为)因为来自x1 的预测误差恰好与来自x2 的预测误差相关,因此通过减法 一些x2。
编辑,补充分析:
您拥有的独立系列越多,您就越有可能看到这种现象出现。对于我只有两个系列的示例,从 1 到 1000 的整数种子中只有 2.4% 会产生这种现象,其中一个系列会产生负回归系数。三个系列增加至 16%,五个系列增加 64%,10 个系列增加 99.9%。