降维是一种对高位特征数据预处理的方法,它是用维数更低的子空间来表示原来高维的特征空间。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。主要有特征选择方法和特征变换方法。
- 特征选择方法:特征选择方法又称属性子集选择或者特征子集选择,对它最简单的理解就是从高维数据中选择出若干最有用的维度进行聚类计算。选择属性子集的过程一般用有监督的方法,如找出与所求问题最相关的属性集。同时,也可以使用无监督的方法,如熵分析等。
- 特征变换方法:把数据转换到一个较小的空间,同时保持对象间原始的相对距离。通过创建属性的线性组合等方式来汇总数据,可能发现数据中的隐藏结构。
【主成分分析(PCA)】
用主成分分析技术来实现降维。主成分分析有两种实现方式:
-
特征值分解
但是特征值分解有很多的局限,比如说变换的矩阵必须是方阵。 -
奇异值分解:
参考资料:机器学习-北京理工大学-中国大学mooc