前言

8月份参加的DataWhale组织的组队学习活动,官方推荐报一个,而我自以为是地报了MySQL,数据挖掘和爬虫,结果只有MySQL完成得还可以了,数据挖掘不厚道地随便搞了一下,蒙混过关,爬虫搞了一半最后被请出了群聊。

数据挖掘实践学习一 数据集处理 未完待续

数据挖掘实践学习一 数据集处理 未完待续

虽然没有完成,但好处保留了这些资料和高手们的聊天记录,现在想把没做完和做好的事情做完做好,可以照着别人的脚步,跟着做,这叫站在巨人的肩膀上。做的这些,当然都是为了工作。

 

第一部分是数据集处理,即拿到数据集后,对数据字段的意义和类型、数据的分布、以及数据的缺失值进行了解和分析,然后做相应的处理。

引用一位群友的总结,即这一部分包括:1、剔除无用的特征;2、缺失值的处理;3、异常值和离群值的处理;4、分类数据的编码;5、时间类特征的处理;6、其他特征的处理。

这一边日志,我主要进行数据值的处理,用python的数据可视化包展示一下数据的分布,这里也复习一下Matplotlib和seaborn,不然真的过去学的都忘了。至于时间类和其他特征处理,放在一下篇,专门学习一下特征工程。

 

数据集说明

这是DataWhale提供的一个金融数据集,数据集已经做了脱密处理。需要做的是预测用户的贷款是否会逾期。数据字段"status" 是结果标签:0表示未逾期,1表示逾期。

数据集将会三七分,三分测试集七分训练集。随机种子设置为2018。

 

导入常用的工具包

数据挖掘实践学习一 数据集处理 未完待续

 

 

 

 

 

 

 

--- End ---

相关文章:

  • 2021-08-23
  • 2021-09-16
  • 2021-09-10
  • 2021-05-28
  • 2021-12-02
  • 2021-12-26
  • 2021-10-11
猜你喜欢
  • 2021-11-11
  • 2021-06-04
  • 2021-07-06
  • 2021-04-24
  • 2022-02-12
  • 2021-05-30
  • 2021-11-30
相关资源
相似解决方案