低维和高维数据答案

【问题标题】：Low and high dimensional data低维和高维数据
【发布时间】：2017-11-04 04:26:23
【问题描述】：

我是机器学习的新手，在学习 SVM 时，我发现了这个术语：“低维和高维数据”，所以谁能向我解释一下它们是什么以及有什么区别？

【问题讨论】：

【解决方案1】：

它通常是指您尝试分类的问题中每个样本的特征数量。例如，著名的鸢尾花数据集仅包含 4 个特征（萼片长度、萼片宽度、花瓣宽度、花瓣长度），将被视为低维数据集。

其他数据集处理更复杂的数据，每个样本可能包含数百或数千个特征。这些被认为是高维数据集。

【讨论】：

【解决方案2】：

如The Elements of Statistical Learning（第 18 章，第 649 页或此处链接的第 2 版 pdf 的第 668 页）中所定义，高维问题是

特征数量p远大于特征数量观察N，通常写成p>>N

因此，高维数据实际上并不是关于大量特征（正如公认的答案所暗示的那样），它由特征/样本比率定义。请注意，此定义适用于机器学习社区，但可能与其他领域的相同想法无关。

正如quora answer 所暗示的那样，在产生确定性答案时，使用高维数据开发模型通常等同于引入强假设。

【讨论】：

【解决方案3】：

高/低维度与数据集中观察值和特征之间的比率相关。在这种情况下，观察的数量显着低于它被认为是高维数据集的特征数量。

【讨论】：