数据探索性分析(EDA)

前言

探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型分布,这导致数据分析结果不理想。EDA则是一种更加贴合实际情况的分析方法,它强调让数据自身“说话”,通过EDA我们可以最真实、直接的观察到数据的结构及特征。
EDA的技术手段主要包括:汇总统计、可视化等。

数据读入

数据探索性分析(EDA)
可以看到,训练集总共包括800000条记录以及47个特征列;
数据探索性分析(EDA)
而测试集总共包括200000条记录和48个特征列;

缺失值情况

数据探索性分析(EDA)
训练集缺失值占比情况如上图所示。

数据探索性分析(EDA)
测试集缺失值情况如上图所示。

特征属性

  • 数值型特征

数据探索性分析(EDA)

  • 类别型特征
    数据探索性分析(EDA)
    数据探索性分析(EDA)
    数据探索性分析(EDA)
    特征具体含义如上图所示。

统计信息

  • 基本统计信息

数据探索性分析(EDA)

  • 类别型变量统计
    grade数据探索性分析(EDA)
    subGrade
    数据探索性分析(EDA)

可视化分析

  • 数值型连续变量可视化
    数据探索性分析(EDA)

  • 类别型变量可视化分析
    数据探索性分析(EDA)

  • 单变量可视化分析
    数据探索性分析(EDA)

总结

通过对数据简单统计信息汇总和可视化分析可以对数据拥有初步的了解。

相关文章: