数据挖掘实践学习一数据集处理未完待续

前言

8月份参加的DataWhale组织的组队学习活动，官方推荐报一个，而我自以为是地报了MySQL，数据挖掘和爬虫，结果只有MySQL完成得还可以了，数据挖掘不厚道地随便搞了一下，蒙混过关，爬虫搞了一半最后被请出了群聊。

数据挖掘实践学习一数据集处理未完待续

虽然没有完成，但好处保留了这些资料和高手们的聊天记录，现在想把没做完和做好的事情做完做好，可以照着别人的脚步，跟着做，这叫站在巨人的肩膀上。做的这些，当然都是为了工作。

第一部分是数据集处理，即拿到数据集后，对数据字段的意义和类型、数据的分布、以及数据的缺失值进行了解和分析，然后做相应的处理。

引用一位群友的总结，即这一部分包括：1、剔除无用的特征；2、缺失值的处理；3、异常值和离群值的处理；4、分类数据的编码；5、时间类特征的处理；6、其他特征的处理。

这一边日志，我主要进行数据值的处理，用python的数据可视化包展示一下数据的分布，这里也复习一下Matplotlib和seaborn，不然真的过去学的都忘了。至于时间类和其他特征处理，放在一下篇，专门学习一下特征工程。

这是DataWhale提供的一个金融数据集，数据集已经做了脱密处理。需要做的是预测用户的贷款是否会逾期。数据字段"status" 是结果标签：0表示未逾期，1表示逾期。

数据集将会三七分，三分测试集七分训练集。随机种子设置为2018。

数据挖掘实践学习一数据集处理未完待续

--- End ---