【问题标题】:The more the features the more perfect the linear model特征越多,线性模型越完善
【发布时间】:2021-10-07 12:22:33
【问题描述】:

我需要了解更多关于特征数量和线性模型回归之间的关系,根据 Andreas C. Müller 和 Sarah Guido 所著的《Python 机器学习简介》一书第 47 页上的这段话:

“对于具有许多特征的数据集,线性模型可能非常强大。 特别是,如果你有比训练数据点更多的特征,任何目标 y 可以完美地建模(在训练集上)为线性函数”

线性代数是如何解释的?

谢谢

【问题讨论】:

    标签: machine-learning linear-algebra


    【解决方案1】:

    我可以试着给你一个直观的答案。

    假设您有一个由二维中的单个数据点组成的训练数据集。在这种情况下,我们有n_data = 1(数据点的数量)和n_features = 2n_features > n_data)。训练数据集可以用一维线性函数y = a0完美建模。

    同样,如果您有三个特征(即三个维度)和两个数据点(所以n_features = 3 > n_data = 2),那么这两个点始终可以通过y = a0 + a1 x1 形式的二维线建模。

    在四个维度(四个特征)中,三个点始终可以由一个(超)平面建模,该平面由 y = a0 + a1x1 + a2x2 形式的线性方程定义。

    一般来说,超平面(定义为任何维数少于其环境空间维数的平面)总是可以用线性公式a1*x1 + a2*x2 + a3*x3 + ... + an*xn = b 定义。因此,如果点数小于维度数,总能找到超平面,因此如果样本数小于特征数(即对应空间的尺寸)。

    【讨论】:

    • 谢谢,但我提出了一个新问题。如果我们有两个观察值(2 个点)和三个特征(3D),我们可以通过一条线或多个平面对我们的数据进行建模。这种情况该如何处理?
    • @MiladRahbar 确实,您的评论可以扩展到所有维度! 1 2D 中的观察可以通过无限数量的线来建模——这个陈述仍然成立,我的情况是最简单的情况,其中最高 n 维的系数等于 0。在 3D 情况下,模型是线还是平面,将取决于各种因素,其中初始参数(如果它们都为零,则所有可能为零的参数都可能保持为零!),学习算法等
    • 非常感谢您的时间和耐心回答我的问题。
    【解决方案2】:

    这个问题比较适合Cross Validated社区。​​p>

    这里的关键字是“在训练集上”

    “对于具有许多特征的数据集,线性模型可能非常强大。 特别是,如果你有比训练数据点更多的特征, 任何目标 y 都可以完美地建模(在训练集上)作为 线性函数", Andreas C. Müller 和 Sarah Guido 的 Python 机器学习简介

    通常比数据点更多的特征(或比样本/观察更多的变量/预测变量)导致model overfitting。如果我们有太多的特征,学习的假设可能非常适合训练集,但无法推广到新的例子(在测试集上)。例如,考虑一个由 1000 张图像组成的数据集,每张图像有 300x300 像素(1000 个样本和 90000 个特征)。

    预测变量多于观察值的问题(通常表示为p>n)是标准linear regression 问题没有唯一解决方案。 这就是线性代数的解释。如果数据点矩阵的行代表案例,列代表预测变量,则矩阵的列之间必然存在线性相关性。因此,一旦你找到了 n 个预测变量的系数,其他 p-n 个预测变量的系数就可以表示为前 n 个预测变量的任意线性组合强>预测。其他方法,如 LASSOridge regression,或各种其他机器学习方法,提供了在这种情况下继续进行的方法。

    Cross Validated 上有一个很好的answer

    当有更多模型时,当然可以拟合好的模型 变量比数据点,但这必须小心。

    当变量多于数据点时,问题可能不会 有一个独特的解决方案,除非它受到进一步的限制。也就是说,有 可能是适合数据的多个(可能是无限多个)解决方案 同样好。这样的问题称为ill-posedunderdetermined例如,当变量多于 数据点,标准最小二乘回归有无限多 在训练数据上实现零错误的解决方案

    这样的模型肯定会过拟合,因为它“太灵活” 训练数据量。随着模型灵活性的增加(例如更多 回归模型中的变量)和训练数据量 缩小,模型越来越有可能 通过拟合训练中的随机波动来实现低误差 不代表真实的基础分布的数据。 因此,当模型在未来运行时,性能会很差 从同一分布中提取的数据。

    【讨论】:

      【解决方案3】:

      在讨论特征数量和线性模型回归之间的关系之前,让我明确一下属性或预测变量与特征之间的区别。

      属性或预测变量是第一级输入变量,而特征可能是第一级或第二级。在这里,第一级意味着预测器作为预测响应或输出的输入变量。第二层意味着特征作为预测变量或输入变量的非线性变换,使用一些基础或特征映射来捕获继承的特殊结构。

      现在,从线性代数的角度来回答您的问题。如果特征数量表示它的维度为 $p>>n$,则样本数量 n 太小,无法准确估计参数。在 $p>>n$ 的情况下,线性模型的关联线性系统 $y=\textbf{X}\omega $ 是欠定的并且有无限多个解,因此我们可以使用最小范数解找到最佳解.

      另一种方法是,我们假设模型是稀疏的,但是如果真正的模型是稀疏的,稀疏度量 $s

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多