Datawhale-数据分析-Task02 数据清洗及特征处理
我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。

缺失值观察与处理

有些数据是缺失的,即NaN

缺失值观察

Datawhale-数据分析-Task02 数据清洗及特征处理
Datawhale-数据分析-Task02 数据清洗及特征处理

对缺失值进行处理Datawhale-数据分析-Task02 数据清洗及特征处理

Datawhale-数据分析-Task02 数据清洗及特征处理

重复值观察与处理

查看数据中的重复值

Datawhale-数据分析-Task02 数据清洗及特征处理

对重复值进行处理Datawhale-数据分析-Task02 数据清洗及特征处理

特征观察与处理

对年龄进行分箱处理

Datawhale-数据分析-Task02 数据清洗及特征处理

对文本变量进行转换

Datawhale-数据分析-Task02 数据清洗及特征处理
Datawhale-数据分析-Task02 数据清洗及特征处理
Datawhale-数据分析-Task02 数据清洗及特征处理
Datawhale-数据分析-Task02 数据清洗及特征处理

从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

Datawhale-数据分析-Task02 数据清洗及特征处理

相关文章: