【发布时间】:2015-07-20 21:20:20
【问题描述】:
线性回归定义 Y 是 X 的函数。使用此函数可以在 X 发生之前使用 X 的值预测 Y(忽略异常值)。
单变量线性回归仅取决于一个变量。但更强大的形式是多元线性回归,其中不只使用一个参数: X ,而是使用多个参数。这在 X,Y 平面上无法可视化,引入 3 个参数或许可以可视化,但 4,5,6 个参数(维度)则不能。
这个想法是使用更多参数将提供更好的预测。这有什么依据?为什么使用多个特征可以提高预测的质量?凭直觉,我对问题的了解越多,就可以做出更准确的预测。但是为什么添加更多的特征,或者换句话说,维度会增加函数的准确性呢?这个有正式的定义吗?
或者只是反复试验 - 一个功能可能就足够了,但在测试多个功能之前无法确定。
【问题讨论】:
-
多个特征的情况只是对只有一个特征的情况的概括,您的权重向量除一个特征外的所有特征都为零。因此,不可能变得更差,因为您可以随意忽略其他信息。
-
“这个想法是使用更多参数将提供更好的预测。”不必要。如果使用太多参数,则生成的模型可能会过拟合。不管怎样,你应该在CrossValidated问这个问题。
-
这对于堆栈交叉验证来说确实是一个更合适的讨论。编码问题应该使用溢出。
标签: machine-learning linear-regression