一、前言
这是菜鸟笔者的第一篇学习笔记博客,因为刚刚上手数据挖掘的课程,可能在笔记中会出现错误,若发现有什么错误的欢迎来指导哦!!!
来源是Datawhale与天池合作的《零基础入门数据挖掘-二手车交易价格预测》的task2数据分析的学习内容。
链接:Datawhale数据的探索性分析(EDA)
二、EDA的意义与目的
(1)EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。。
(2)EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用;了解数据集后了解变量间的相互关系以及变量与预测值之间的存在关系。
三、内容介绍
1、载入各种数据科学以及可视化库
2、载入数据
3、总览数据概况
4、判断数据缺失和异常
5、了解预测值的分布
6、对类别特征查看unique分布
7、数字特征分布
8、类别特征分析
9、用pandas_profiling生成数据报告
四、数据探索的帮助
1、对于数据的初步分析(直接查看数据,或.sum(), .mean(),.descirbe()等统计函数)可以从:样本数量,训练集数量,是否有时间特征,是否是时许问题,特征所表示的含义(非匿名特征),特征类型(字符类似,int,float,time),特征的缺失情况(注意缺失的在数据中的表现形式,有些是空的有些是”NAN”符号等),特征的均值方差情况。
2、分析记录某些特征值缺失占比30%以上样本的缺失处理,有助于后续的模型验证和调节,分析特征应该是填充(填充方式是什么,均值填充,0填充,众数填充等),还是舍去,还是先做样本分类用不同的特征模型去预测。
3、对于异常值做专门的分析,分析特征异常的label是否为异常值(或者偏离均值较远或者事特殊符号),异常值是否应该剔除,还是用正常值填充,是记录异常,还是机器本身异常等。
4、对于Label做专门的分析,分析标签的分布情况等。
5、进步分析可以通过对特征作图,特征和label联合做图(统计图,离散图),直观了解特征的分布情况,通过这一步也可以发现数据之中的一些异常值等,通过箱型图分析一些特征值的偏离情况,对于特征和特征联合作图,对于特征和label联合作图,分析其中的一些关联性。
五、总结
探索性数据分析(EDA)目的是最大化对数据的直觉,完成这件事的方法只能结合统计学的图形以各种形式展现出来。
通过EDA可以实现:得到数据直观的表现,发现潜在的结构,提取重要的变量,处理异常值,检验统计假设,建立初步模型,决定最优因子的设置。(来源网络总结)
六、直播介绍
直播简介:
Part1将讲解和赛题理解部分。主要介绍数据挖掘比赛中如何去理解赛题,以及入门一个基础的Baseline.
Par2将介绍数据分析部分。主要介绍数据挖掘比赛中常用的数据分析绘图与量化方法,以及进行探索性数据分析的基本流程。
链接:ML67与小雨姑娘的直播