预处理

当我们拿到一批原始的数据

首先要明确有多少特征，哪些是连续的，哪些是类别的。
检查有没有缺失值，对缺失的特征选择恰当方式进行弥补，是数据完整。
对连续的数值型特征进行标准化，是的均值为0，方差为1.
对类别型的特征进行one-hot编码。
将需要转换成类别型数据的连续型数据进行二值化。
为防止过拟合或者其他原因，选择是否要将数据进行正则化。
在dataset中，假如数据格式是[n，30]n是样本数，29个特征，1个类别，则可以scatter 29张散点图，每次一个特征跟类别做展示，分别看每个特征跟类别有什么相关性。

数据概览：info(),describe()

读取一个数据文件之后，可以采用.info()查看文件特征信息预处理

还有df.describe() 预处理

其中count是个数，mean均值，std标准差，min最小值，25% 50% 75%分位数

数据查看：

df.head()#查看表头，显示每列前n个，默认五个

df.tail()#查看倒数的几行，与head相反

df.shape()#查看行列

df.dtype()#查看数据类型

df.isnull().sum()#统计控制个数预处理

缺失数据填充：

df.fillna(df.mode().iloc[0],inplace=True)#众数填充

df.fillna(df.median())#中位数填充

df[' '][df.age.isnull()]='0'#对某一列填充

连续特征值的规范化处理：MinMaxScaler，Normalizer，StandardScaler

fit_transform（这是偷懒的方法。一般是先对整个数据集(训练集和测试集合并起来)fit，再分别对训练集和测试集transform）

df.[' ']=df.[' '].rank#排序

特征二值化：Binarizer

from sklearn.preprocessing import Binarizer

Binarizer(threshold= ).fit_transform(df[' '].values.reshape(-1,1))

预处理

模型评估与参数搜索

预处理

best_estimator_.get_params()

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode