使⽤EDA完成数据分析的过程如下:
- 读取并分析数据质量;
- 探索性分析每个变量;
- 变量是什么类型;
- 变量是否有缺失值;
- 变量是否有异常值;
- 变量是否有重复值;
- 变量是否均匀;
- 变量是否需要转换;
- 探索性分析变量与target标签的关系;
- 变量与标签是否存在相关性;
- 变量与标签是否存在业务逻辑;
- 探索性分析变量之间的关系;
- 连续型变量与连续型变量;
- 可视化:散点图、相关性热⼒图;
- ⽪尔逊系数;
- 互信息;
- 离散变量与离散变量;
- 可视化:柱状图、饼图、分组表;
- 卡⽅检验;
- 检查变量之间的正态性;
- 直⽅图;
- 箱线图;
- Quantile-Quantile (QQ图);
- 连续型变量与连续型变量;
原文获取方式如下: