探索性数据分析学习笔记
探索性数据分析(EDA),也成描述性统计分析,是指对已有数据在尽量少的先验假设下通过作图、制表、计算统计量等手段探索数据的结构和规律的一种数据分析方法。传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据特征,但是实际中往往有很多的数据并不符合假设的统计模型分布,这导致数据分析并不理想。EDA则是一种更加贴合实际情况的分析方法,它强调让数据自身“说话”,通过EDA可以最真实、直接的观察到数据的结构及特征.
数据分析主要分为两步,探索阶段和验证阶段。探索阶段侧重于发现数据中包含的模式或模型,验证阶段侧重于评估所发现的模式或模型.
EDA的技术手段主要包括:汇总统计、可视化.
代码示例:
1.导入相关计算库
探索性数据分析学习笔记2.载入数据
载入训练数据和测试数据.
探索性数据分析学习笔记3.数据概览
head():可以通过head()观察数据的前5行数据,初步了解数据的字段及字段类型.
探索性数据分析学习笔记
shape:可以通过.shape观察数据的结构,即行数和列数.
探索性数据分析学习笔记describe:可以通过.describe()查看每列的相关统计值,包括个数、均值、方差、最大最小值及25、50、27分位数.看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式.
探索性数据分析学习笔记info:可以通过.info()查看数据类型.
探索性数据分析学习笔记4.判断数据缺失和异常
分析记录某些特征值缺失占比30%以上的样本的缺失处理,有助于后续的模型验证及调节,分析特征值应该是填充(填充方式是均值填充、0填充、众数填充等),还是舍去,还是先做样本分类用不同的模型去预测.
isnull:可以通过.isnull()查看每列的存在nan情况.
探索性数据分析学习笔记探索性数据分析学习笔记可以通过以上两句很直观的了解哪些列存在缺失值,如果缺失值个很少,一般选择填充,如果使用lgb等树模型可以直接空缺,让树自己去优化,但如果缺失值过多可以考虑删掉.
5.了解预测值的分布
探索性数据分析学习笔记探索性数据分析学习笔记探索性数据分析学习笔记探索性数据分析学习笔记价格不服从正态分布,所以在回归之前,必须进行转换,虽然对数变换做得很好,但最佳拟合是无界约翰逊分布.
探索性数据分析学习笔记查看频数,大于20000的值极少,其实这里可以把这些当作特殊的值(异常值),直接用填充或者删掉.
探索性数据分析学习笔记6.特征分为类别特征和数字特征,并对类别特征查看unique分布
探索性数据分析学习笔记探索性数据分析学习笔记7.数字特征分析
探索性数据分析学习笔记相关性分析:对数值型数据进行相关性分析,也可以通过热力图查看数据之间的相关关系.
探索性数据分析学习笔记
探索性数据分析学习笔记探索性数据分析学习笔记
探索性数据分析学习笔记
探索性数据分析学习笔记探索性数据分析学习笔记8.类别特征分析
对于类别特征,可以通过箱线图、小提琴图等的方式进行可视化.
探索性数据分析学习笔记探索性数据分析学习笔记探索性数据分析学习笔记探索性数据分析学习笔记9.用pandas_profiling生成数据报告
用pandas_profiling生成一个较为全面的可视化和数据报告(较为简单、方便) 最终打开html文件即可
探索性数据分析学习笔记

相关文章: