1、赔率
2、PCA
引入PCA降维的原因是由于“维数灾难”,在机器学习中,过多的特征有时会使分类结果更差;或者是该特征是冗余特征。“维数灾难”是指计算量急剧增加,而分类精度下降。
PCA降维,就是将高维特征(n维)投影到低维子空间(k维),从而实现特征的融合。
1). 样本标准化
其中,
2). PCA降维
将n维数据降到k维,我们要选择最大的主成分。
-
首先计算协方差矩阵
-
其次求特征值特征向量,选择最大特征值对应的特征向量作为第一主成分,次大特征值对应的特征向量作为第二主成分…最终选出k组主成分,组成一个n*k维的特征向量矩阵。
-
将X投影到相应的k个主成分,融合形成K组新的特征。
这样,我们就得到了降维后的新的数据。
思考:为什么要求的特征值、特征向量?即PCA推导过程
补充:特征选择和PCA特征降维的区别
特征选择是考察每一个特征与样本类别标签的相似度,优先选择相似度大的留下。PCA是融合所有特征做了降维
数据清洗
独热编码(one-hot)
logistic回归将文本特征转为数值特征时需要
决策树和随机森林不需要
会造成特征急剧膨胀