【问题标题】:Using Quadratic Terms vs Linear & Quadratic Simultaneously同时使用二次项与线性和二次项
【发布时间】:2018-03-15 02:51:36
【问题描述】:

我在一个数据分析实验室工作,我们必须在该实验室中生成最佳模型以根据数据集进行预测。

据我了解,包含交互项(二次项)作为预测变量以及线性项的回归模型比仅使用线性项的相应模型更通用。

什么时候只使用线性项比同时使用更好?

我的印象是,如果单个术语的相关性不是很高,那么添加更多与它们相关的术语只会使数据变得混乱。是这样吗?我不确定我是否理解这个概念。

【问题讨论】:

  • 不是编程,而是数据分析/机器学习问题。
  • @MarcusMüller 抱歉,我以为我的标签会解决这个问题。我应该在其他地方发布问题吗?
  • stackexchange 网络上有数据分析/统计/ml 姐妹端...

标签: machine-learning regression data-analysis


【解决方案1】:

对此有很多细节可以提供,但我会保持简短的回应。将使用一些非常简单的 R 代码并使用 Adjusted R squared 进行演示:

x <- c(3, 4, 5, 7, 10)
y <- c(5, 8, 9, 11, 18)
plot(x, y)

yfit <- lm(y ~ x)
rsquaredfit <- summary(yfit)$adj.r.squared
rsquaredfit

yfitquad <- lm(y ~ x + I(x ^ 2))
yfitquad
rsquaredfitquad <- summary(yfitquad)$adj.r.squared
rsquaredfitquad

注意具有二次项的模型的较低调整 R 平方。这里真正的关系显然是线性的,并且二次项过拟合。

【讨论】:

    猜你喜欢
    • 2016-02-16
    • 1970-01-01
    • 2022-09-09
    • 2016-12-21
    • 1970-01-01
    • 1970-01-01
    • 2021-09-22
    • 1970-01-01
    • 2017-08-08
    相关资源
    最近更新 更多