数据特征预处理,数据降维

处理方法:     1,数值型数据     :   标准缩放      (1)归一化

                                                                              (2)标准化

                                                                               (3)缺失值 

                       2, 类别型数据    :    one-hot 编码

                       3,时间类型         :    时间的切分

下面是归一化,标准化,缺失值,(这是小编的笔记)

 

人工智能——机器学习,数据特征预处理,数据降维

归一化:通过对原始数据进行转换,把数据映射到,0,1之间。(其实就是把复杂的数据通过公式算法变成简单的0~1之间。)

 

人工智能——机器学习,数据特征预处理,数据降维

标准化:通过对原始数据进行转换,把数据转换成均值为0,方差为1的范围。(方差考量数据的稳定数据的稳定性,如果方差为零,表示数据的值是一样的)

#导入包

from sklearn.preprocessingimport StandardScaler

import numpyas np

from sklearn.imputeimport SimpleImputer

def sdandar():

"""

    标准化处理

    :return: None

"""

    #实例化

    bzh = StandardScaler()

data = bzh.fit_transform([[1,-1,3],[2,4,2],[4,6,-1]])

print(data)

return None

def inputer():

"""

    标准化处理

    :return: None

"""

    #实例化

    qsz = SimpleImputer(strategy='mean')

data = qsz.fit_transform([[1,-1,3],[np.nan,4,2],[4,6,-1]])

print(data)

return None

if __name__ =="__main__":

inputer()

数据的降维:(改变特征的数量)

特征选择的原因:冗余——部分特征的相关度高,容易消耗计算机性能

                             噪声——部分特征对与预测结果有影响

特征选择的主要方法:Filter过滤式,Embedded嵌入式,Wrapper包裹式

PCA:本质——PCA是一种分析,简化数据集的技术

           目的——是数据维数压缩,尽可能降低数据的维数,这样会损失少量的信息

           作用——可以削减回归分析或聚类分析中的特征数量

简而言之:小编的理解是,数据特征预处理和降维的核心是提炼数据,去除水分,提高计算机性能的利用。

相关文章: