特征越多，线性模型越完善答案

【问题标题】：The more the features the more perfect the linear model特征越多，线性模型越完善
【发布时间】：2021-10-07 12:22:33
【问题描述】：

我需要了解更多关于特征数量和线性模型回归之间的关系，根据 Andreas C. Müller 和 Sarah Guido 所著的《Python 机器学习简介》一书第 47 页上的这段话：

“对于具有许多特征的数据集，线性模型可能非常强大。特别是，如果你有比训练数据点更多的特征，任何目标 y 可以完美地建模（在训练集上）为线性函数”

线性代数是如何解释的？

谢谢

【问题讨论】：

标签： machine-learning linear-algebra

【解决方案1】：

我可以试着给你一个直观的答案。

假设您有一个由二维中的单个数据点组成的训练数据集。在这种情况下，我们有n_data = 1（数据点的数量）和n_features = 2（n_features > n_data）。训练数据集可以用一维线性函数y = a0完美建模。

同样，如果您有三个特征（即三个维度）和两个数据点（所以n_features = 3 > n_data = 2），那么这两个点始终可以通过y = a0 + a1 x1 形式的二维线建模。

在四个维度（四个特征）中，三个点始终可以由一个（超）平面建模，该平面由 y = a0 + a1x1 + a2x2 形式的线性方程定义。

一般来说，超平面（定义为任何维数少于其环境空间维数的平面）总是可以用线性公式a1*x1 + a2*x2 + a3*x3 + ... + an*xn = b 定义。因此，如果点数小于维度数，总能找到超平面，因此如果样本数小于特征数（即对应空间的尺寸）。

【讨论】：

谢谢，但我提出了一个新问题。如果我们有两个观察值（2 个点）和三个特征（3D），我们可以通过一条线或多个平面对我们的数据进行建模。这种情况该如何处理？
@MiladRahbar 确实，您的评论可以扩展到所有维度！ 1 2D 中的观察可以通过无限数量的线来建模——这个陈述仍然成立，我的情况是最简单的情况，其中最高 n 维的系数等于 0。在 3D 情况下，模型是线还是平面，将取决于各种因素，其中初始参数（如果它们都为零，则所有可能为零的参数都可能保持为零！），学习算法等
非常感谢您的时间和耐心回答我的问题。

【解决方案2】：

这个问题比较适合Cross Validated社区。p>

这里的关键字是“在训练集上”！

“对于具有许多特征的数据集，线性模型可能非常强大。特别是，如果你有比训练数据点更多的特征，任何目标 y 都可以完美地建模（在训练集上）作为线性函数", Andreas C. Müller 和 Sarah Guido 的 Python 机器学习简介。

通常比数据点更多的特征（或比样本/观察更多的变量/预测变量）导致model overfitting。如果我们有太多的特征，学习的假设可能非常适合训练集，但无法推广到新的例子（在测试集上）。例如，考虑一个由 1000 张图像组成的数据集，每张图像有 300x300 像素（1000 个样本和 90000 个特征）。

预测变量多于观察值的问题（通常表示为p>n）是标准linear regression 问题没有唯一解决方案。 这就是线性代数的解释。如果数据点矩阵的行代表案例，列代表预测变量，则矩阵的列之间必然存在线性相关性。因此，一旦你找到了 n 个预测变量的系数，其他 p-n 个预测变量的系数就可以表示为前 n 个预测变量的任意线性组合强>预测。其他方法，如 LASSO 或 ridge regression，或各种其他机器学习方法，提供了在这种情况下继续进行的方法。

Cross Validated 上有一个很好的answer：

当有更多模型时，当然可以拟合好的模型变量比数据点，但这必须小心。

当变量多于数据点时，问题可能不会有一个独特的解决方案，除非它受到进一步的限制。也就是说，有可能是适合数据的多个（可能是无限多个）解决方案同样好。这样的问题称为ill-posed 或 underdetermined。 例如，当变量多于数据点，标准最小二乘回归有无限多在训练数据上实现零错误的解决方案。

这样的模型肯定会过拟合，因为它“太灵活” 训练数据量。随着模型灵活性的增加（例如更多回归模型中的变量）和训练数据量缩小，模型越来越有可能通过拟合训练中的随机波动来实现低误差不代表真实的基础分布的数据。因此，当模型在未来运行时，性能会很差从同一分布中提取的数据。

【讨论】：

【解决方案3】：

在讨论特征数量和线性模型回归之间的关系之前，让我明确一下属性或预测变量与特征之间的区别。

属性或预测变量是第一级输入变量，而特征可能是第一级或第二级。在这里，第一级意味着预测器作为预测响应或输出的输入变量。第二层意味着特征作为预测变量或输入变量的非线性变换，使用一些基础或特征映射来捕获继承的特殊结构。

现在，从线性代数的角度来回答您的问题。如果特征数量表示它的维度为 $p>>n$，则样本数量 n 太小，无法准确估计参数。在 $p>>n$ 的情况下，线性模型的关联线性系统 $y=\textbf{X}\omega $ 是欠定的并且有无限多个解，因此我们可以使用最小范数解找到最佳解.

另一种方法是，我们假设模型是稀疏的，但是如果真正的模型是稀疏的，稀疏度量 $s

【讨论】：