【问题标题】:Low and high dimensional data低维和高维数据
【发布时间】:2017-11-04 04:26:23
【问题描述】:

我是机器学习的新手,在学习 SVM 时,我发现了这个术语:“低维和高维数据”,所以谁能向我解释一下它们是什么以及有什么区别?

【问题讨论】:

    标签: machine-learning artificial-intelligence svm dimensions


    【解决方案1】:

    它通常是指您尝试分类的问题中每个样本的特征数量。例如,著名的鸢尾花数据集仅包含 4 个特征(萼片长度、萼片宽度、花瓣宽度、花瓣长度),将被视为低维数据集。

    其他数据集处理更复杂的数据,每个样本可能包含数百或数千个特征。这些被认为是高维数据集。

    【讨论】:

    • 谢谢终于明白了!
    • 通俗易懂。
    【解决方案2】:

    The Elements of Statistical Learning(第 18 章,第 649 页或此处链接的第 2 版 pdf 的第 668 页)中所定义,高维问题是

    特征数量p远大于特征数量 观察N,通常写成p>>N

    因此,高维数据实际上并不是关于大量特征(正如公认的答案所暗示的那样),它由特征/样本比率定义。请注意,此定义适用于机器学习社区,但可能与其他领域的相同想法无关。

    正如quora answer 所暗示的那样,在产生确定性答案时,使用高维数据开发模型通常等同于引入强假设。

    【讨论】:

      【解决方案3】:

      高/低维度与数据集中观察值和特征之间的比率相关。在这种情况下,观察的数量显着低于它被认为是高维数据集的特征数量。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2013-12-23
        • 2012-01-02
        • 1970-01-01
        • 1970-01-01
        • 2022-01-05
        • 2017-01-09
        • 2015-07-21
        • 1970-01-01
        相关资源
        最近更新 更多