前言
8月份参加的DataWhale组织的组队学习活动,官方推荐报一个,而我自以为是地报了MySQL,数据挖掘和爬虫,结果只有MySQL完成得还可以了,数据挖掘不厚道地随便搞了一下,蒙混过关,爬虫搞了一半最后被请出了群聊。
虽然没有完成,但好处保留了这些资料和高手们的聊天记录,现在想把没做完和做好的事情做完做好,可以照着别人的脚步,跟着做,这叫站在巨人的肩膀上。做的这些,当然都是为了工作。
第一部分是数据集处理,即拿到数据集后,对数据字段的意义和类型、数据的分布、以及数据的缺失值进行了解和分析,然后做相应的处理。
引用一位群友的总结,即这一部分包括:1、剔除无用的特征;2、缺失值的处理;3、异常值和离群值的处理;4、分类数据的编码;5、时间类特征的处理;6、其他特征的处理。
这一边日志,我主要进行数据值的处理,用python的数据可视化包展示一下数据的分布,这里也复习一下Matplotlib和seaborn,不然真的过去学的都忘了。至于时间类和其他特征处理,放在一下篇,专门学习一下特征工程。
数据集说明
这是DataWhale提供的一个金融数据集,数据集已经做了脱密处理。需要做的是预测用户的贷款是否会逾期。数据字段"status" 是结果标签:0表示未逾期,1表示逾期。
数据集将会三七分,三分测试集七分训练集。随机种子设置为2018。
导入常用的工具包
--- End ---