为什么在线性回归中使用多个特征？答案

【问题标题】：Why use multiple features in Linear Regression?为什么在线性回归中使用多个特征？
【发布时间】：2015-07-20 21:20:20
【问题描述】：

线性回归定义 Y 是 X 的函数。使用此函数可以在 X 发生之前使用 X 的值预测 Y（忽略异常值）。

单变量线性回归仅取决于一个变量。但更强大的形式是多元线性回归，其中不只使用一个参数： X ，而是使用多个参数。这在 X,Y 平面上无法可视化，引入 3 个参数或许可以可视化，但 4,5,6 个参数（维度）则不能。

这个想法是使用更多参数将提供更好的预测。这有什么依据？为什么使用多个特征可以提高预测的质量？凭直觉，我对问题的了解越多，就可以做出更准确的预测。但是为什么添加更多的特征，或者换句话说，维度会增加函数的准确性呢？这个有正式的定义吗？

或者只是反复试验 - 一个功能可能就足够了，但在测试多个功能之前无法确定。

【问题讨论】：

多个特征的情况只是对只有一个特征的情况的概括，您的权重向量除一个特征外的所有特征都为零。因此，不可能变得更差，因为您可以随意忽略其他信息。
“这个想法是使用更多参数将提供更好的预测。”不必要。如果使用太多参数，则生成的模型可能会过拟合。不管怎样，你应该在CrossValidated问这个问题。
这对于堆栈交叉验证来说确实是一个更合适的讨论。编码问题应该使用溢出。

标签： machine-learning linear-regression

【解决方案1】：

形式证明很简单。 您的映射 f 的性质不能表示为您的功能的函数。您只能得到一些近似值，而添加更多变量总是会扩大可能的近似值的空间（更严格 - 从不减少）。虽然实际上可能更难在这个新空间中找到一个好的逼近器（因此所有已知的算法都会失败），但它存在的可能性总是更大。通常 - 如果您可以创建一组完美的特征，例如......输出值本身 - 那么添加任何内容实际上都会降低模型的质量。但在现实生活中——我们人类——无法找到如此好的预测指标，因此我们盲目地抽样可以从现实中获得的信息，并作为简单的随机猜测——每一条额外的信息都可能有用。

如果您更喜欢数学解决方案，请考虑 f 是一组未知特征的函数

f(x1, ..., xm) e R

现在您可以测量原始信号r1, r2, ... 的无限空间中的特征，并且对于原始信号的每个子集，都有一个映射到f 的这些真实特征，但具有不同程度的正确性，所以您有@ 987654325@ 等。您正在尝试将函数从原始信号的一些有限子集构建到 R 中，这将近似于 f，因此您包含的 r 数量越多，您就越有可能捕获这些元素，这将使近似f 成为可能。不幸的是 - 您可以添加许多冗余信号，或者那些与真实特征完全不相关的信号。这可能被视为一个很大的偏差方差问题。您添加的功能越多，假设您在整个可能的信号范围内执行此操作（因此您实际上可以找到与f 的性质真正相关的东西），您将引入的差异越多。另一方面 - 少量特征会引入高偏差误差（由于对所需信号的强烈假设，以及它们与真实特征的相关性）。

特别是，线性回归不太适合处理高度相关的信号，因此对于这个特定的统计模型，添加新信号会很快导致模型破坏。 LR 有一个强有力的基本假设，即f 是所有预测变量的线性模型，最高可达正态分布的误差，每个维度之间的方差相等。

【讨论】：

“添加更多变量总是会扩大可能的逼近器的空间”换句话说：具有更多参数的学习函数将在其计算值中具有更高程度的方差，因为更多参数会提供更大范围的函数操作数?
嗯，它比“函数操作数的范围”更复杂；它更多地涉及一个事实，即您只需扩展可能功能的空间。如果所有参数都位于同一个流形中，那么添加更多参数并不会扩大空间，而您仍然可以获得“更大范围的函数操作数”，关键是您实际上可以通过引入更多的“真实”域（至少部分）正交信号
我可以询问“-1”投票的原因吗？如果答案不正确/误导，请提出您的疑问，以便改进

【解决方案2】：

只是补充一下@lejlot 所说的话，我想说的是，增加特征数量并不总是会增加正确回归模型建模的概率，因为训练模型存在过度拟合的可能性。而是寻找彼此独立且仍对整体模型有贡献的特征。

我会建议这篇特别的帖子来了解更多关于线性回归以及更多功能如何提供帮助的信息：

http://cs229.stanford.edu/notes/cs229-notes1.pdf

【讨论】：

它如何为答案添加任何内容？过度拟合明确指出“您添加的特征越多，假设您在整个可能信号范围内执行此操作（因此您实际上可以找到与 f 的性质真正相关的东西），您将引入的方差越多”高方差错误= 机器学习/统计中的过度拟合。
这个链接是让人们理解线性回归的好方法。