降维的笔记 - 爱码网

机器学习：如本文所述，机器学习不过是一个研究领域，它允许计算机像人类一样“学习”，而无需显式编程。

什么是预测建模：预测建模是一个概率过程，它使我们可以在一些预测因子的基础上预测结果。这些预测变量基本上是在决定最终结果（即模型的结果）时起作用的功能。

什么是降维？

在机器学习分类问题中，通常会根据太多因素进行最终分类。这些因素基本上是称为特征的变量。功能数量越多，越难以可视化训练集，然后对其进行处理。有时，大多数这些功能都是相关的，因此是多余的。这是降维算法发挥作用的地方。降维是通过获取一组主变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。

为什么降维在机器学习和预测建模中很重要？

降维的直观示例可以通过一个简单的电子邮件分类问题来讨论，在该问题中，我们需要对电子邮件是否为垃圾邮件进行分类。这可能涉及许多功能，例如电子邮件是否具有通用标题，电子邮件的内容，电子邮件是否使用模板等。但是，其中某些功能可能会重叠。在另一种情况下，依赖于湿度和降雨的分类问题可以被分解为一个基本特征，因为上述两者都高度相关。因此，我们可以减少此类问题中的特征数量。 3-D分类问题可能很难可视化，而2-D分类问题可以映射到简单的二维空间，而1-D问题可以映射到简单的线。下图说明了此概念，其中将3-D特征空间划分为两个1-D特征空间，随后，如果发现存在关联，则可以进一步减少特征数量。

降维的笔记

降维的组成部分

降维有两个组成部分：

特征选择：在这种情况下，我们尝试找到原始变量集或特征集的子集，以获得较小的子集，该子集可用于对问题进行建模。它通常涉及三种方式（特征选择在我的另一篇文章专门介绍）：

Filter
Wrapper
Embedded

特征提取：这将高维空间中的数据减少到低维空间，即编号较小的空间。尺寸。

降维方法

用于降维的各种方法包括（在我的其他文章中详细介绍了）：

主成分分析（PCA）
线性判别分析（LDA）
广义判别分析（GDA）
降维可以是线性的，也可以是非线性的，具体取决于所使用的方法。下文讨论了称为主成分分析或PCA的主要线性方法。

主成分分析

此方法由Karl Pearson提出。它的工作条件是，将高维空间中的数据映射到低维空间中的数据时，低维空间中的数据方差应该最大。

降维的笔记

它涉及以下步骤：

构造数据的协方差矩阵。
计算此矩阵的特征向量。
对应于最大特征值的特征向量被用于重构原始数据的很大一部分方差。
因此，我们只剩下较少的特征向量，并且在此过程中可能会丢失一些数据。但是，最重要的方差应保留在其余特征向量中。

降维的优势

它有助于数据压缩，从而减少存储空间。
它减少了计算时间。
它还可以帮助删除多余的功能（如果有）。
降维的缺点

这可能会导致一定程度的数据丢失。
PCA倾向于发现变量之间的线性相关性，这有时是不可取的。
如果均值和协方差不足以定义数据集，则PCA失败。
我们可能不知道要保持多少个主要组成部分，是否应用了一些经验法则。