数据挖掘项目

1.数据导入

数据挖掘项目
一共有4754个样本,90列的数据
表格中 “status” 是结果标签:0表示未逾期,1表示逾期。
数据挖掘项目
未逾期:3561 逾期:1193

2.数据类型分析

数据挖掘项目
90列中70列为float,13列为int,7列object
数据挖掘项目
数据挖掘项目
object类型的列名,以及其分布

3.删除无关变量

数据挖掘项目

4.缺失值处理

数据挖掘项目

5.划分数据集

数据挖掘项目
测试集30%,训练集70%,随机种子设置为2018

待续…

相关文章: