人工智能——机器学习，数据特征预处理，数据降维

数据特征预处理，数据降维

处理方法： 1，数值型数据：标准缩放（1）归一化

（2）标准化

（3）缺失值

2，类别型数据： one-hot 编码

3，时间类型：时间的切分

下面是归一化，标准化，缺失值，（这是小编的笔记）

人工智能——机器学习，数据特征预处理，数据降维

归一化：通过对原始数据进行转换，把数据映射到，0，1之间。（其实就是把复杂的数据通过公式算法变成简单的0~1之间。）

人工智能——机器学习，数据特征预处理，数据降维

标准化：通过对原始数据进行转换，把数据转换成均值为0，方差为1的范围。（方差考量数据的稳定数据的稳定性，如果方差为零，表示数据的值是一样的）

#导入包

from sklearn.preprocessingimport StandardScaler

import numpyas np

from sklearn.imputeimport SimpleImputer

def sdandar():

"""

标准化处理

:return: None

"""

#实例化

bzh = StandardScaler()

data = bzh.fit_transform([[1,-1,3],[2,4,2],[4,6,-1]])

print(data)

return None

def inputer():

"""

标准化处理

:return: None

"""

#实例化

qsz = SimpleImputer(strategy='mean')

data = qsz.fit_transform([[1,-1,3],[np.nan,4,2],[4,6,-1]])

print(data)

return None

if __name__ =="__main__":

inputer()

数据的降维：（改变特征的数量）

特征选择的原因：冗余——部分特征的相关度高，容易消耗计算机性能

噪声——部分特征对与预测结果有影响

特征选择的主要方法：Filter过滤式，Embedded嵌入式，Wrapper包裹式

PCA：本质——PCA是一种分析，简化数据集的技术

目的——是数据维数压缩，尽可能降低数据的维数，这样会损失少量的信息

作用——可以削减回归分析或聚类分析中的特征数量

简而言之：小编的理解是，数据特征预处理和降维的核心是提炼数据，去除水分，提高计算机性能的利用。