PCA降维 - 爱码网

PCA降维

引入PCA降维的原因是由于“维数灾难”，在机器学习中，过多的特征有时会使分类结果更差；或者是该特征是冗余特征。“维数灾难”是指计算量急剧增加，而分类精度下降。

PCA降维，就是将高维特征（n维）投影到低维子空间（k维），从而实现特征的融合。

1). 样本标准化
PCA降维
其中，

2). PCA降维
将n维数据降到k维，我们要选择最大的主成分。

这样，我们就得到了降维后的新的数据。

思考：为什么要求 $X^TX$ 的特征值、特征向量？即PCA推导过程
PCA降维

补充：特征选择和PCA特征降维的区别

特征选择是考察每一个特征 $x^{i}_j$ 与样本类别标签 $y^{i}$ 的相似度，优先选择相似度大的留下。PCA是融合所有特征做了降维

PCA降维

logistic回归将文本特征转为数值特征时需要
决策树和随机森林不需要

PCA降维

会造成特征急剧膨胀