【问题标题】:How Multicollinearity affects the model?多重共线性如何影响模型?
【发布时间】:2021-07-28 19:35:15
【问题描述】:

enter image description here

我拿了4个特征,所有的特征都一样X1=X2=X3=X4,目标是Y=X1。

我想知道,多重共线性如何影响模型的系数?我用这些数据训练了 sklearn 线性回归模型,似乎它对系数没有任何影响。请帮助我理解这一点。

【问题讨论】:

  • 不确定我在这里看到了问题:你有 4 个相同的特征 (X1=X2=X3=X4) 所以你的模型告诉你它们都有相同的系数 0.25 (1/4),这就是我会期望。你也有y=X1,你提供X1=X2=X3=X4=10,你得到y=X1=10,这也是我所期望的。 有什么问题?
  • 其实我想了解的是,如果 X1、X2、X3 和 X4 相同。这意味着它们都是完全相关的,对吗?但是,该模型仍然给出了预期的输出。那么这里多重共线性的影响是什么?还是我不清楚多重共线性的概念?

标签: machine-learning data-science linear-regression


【解决方案1】:

查看以了解多重共线性的问题是什么,我们需要了解什么是斜率。斜率只不过是在其余特征保持不变的情况下,当 x 有单位变化时,y 变化了多少。假设您想用两个特征预测 y

y=m1x1+m2x2+b(理想直线方程)

如果上述方程存在多重共线性问题,并且如果我们尝试改变 x1,最终 x2 也会随着它们的相关而改变。这可能会给计算 y(目标变量)带来问题,并可能给出错误的答案。

【讨论】:

    猜你喜欢
    • 2016-10-05
    • 2021-05-13
    • 1970-01-01
    • 2022-01-22
    • 2011-03-03
    • 2018-04-29
    • 2018-08-23
    • 2016-10-04
    • 1970-01-01
    相关资源
    最近更新 更多