1、赔率

PCA降维

2、PCA

引入PCA降维的原因是由于“维数灾难”,在机器学习中,过多的特征有时会使分类结果更差;或者是该特征是冗余特征。“维数灾难”是指计算量急剧增加,而分类精度下降。

PCA降维,就是将高维特征(n维)投影到低维子空间(k维),从而实现特征的融合。
PCA降维

1). 样本标准化
PCA降维
其中,
PCA降维

2). PCA降维
将n维数据降到k维,我们要选择最大的主成分。

  • 首先计算协方差矩阵
    PCA降维

  • 其次求特征值特征向量,选择最大特征值对应的特征向量作为第一主成分,次大特征值对应的特征向量作为第二主成分…最终选出k组主成分,组成一个n*k维的特征向量矩阵。
    PCA降维

  • 将X投影到相应的k个主成分,融合形成K组新的特征。
    PCA降维

这样,我们就得到了降维后的新的数据。

思考:为什么要求XTXX^TX的特征值、特征向量?即PCA推导过程
PCA降维
PCA降维

补充:特征选择和PCA特征降维的区别

特征选择是考察每一个特征xjix^{i}_j与样本类别标签yiy^{i}的相似度,优先选择相似度大的留下。PCA是融合所有特征做了降维

数据清洗

PCA降维

独热编码(one-hot)

logistic回归将文本特征转为数值特征时需要
决策树和随机森林不需要

PCA降维
PCA降维
会造成特征急剧膨胀

小象学院

相关文章:

  • 2021-08-08
  • 2021-06-25
  • 2021-11-03
  • 2021-11-11
  • 2021-06-14
  • 2021-08-04
猜你喜欢
  • 2022-01-22
  • 2021-07-05
  • 2021-04-07
相关资源
相似解决方案