本节主要介绍pandas中数据之间的一些统计相关性:

数据处理

  与之前类似,在拿到数据之后,先对数据进行一个初步的处理,采用.str.replace("℃", "").astype('int32')方法将温度转为int类型数据:

Pandas系列(四)数据统计函数

汇总类统计

  df.describe()方法提取所有数字列的统计结果:

Pandas系列(四)数据统计函数

  同样可以查看单个Series的统计数据,像均值,最大值,最小值等:

Pandas系列(四)数据统计函数

唯一去重和按值计数

  对于唯一去重和按值计数一般不用于数值列,而是枚举、分类列。主要是统计数据中大概的种类以及数量:

唯一性去重

  .unique()方法统计唯一性:

Pandas系列(四)数据统计函数

按值计数

  .value_counts()方法统计按值计数:

Pandas系列(四)数据统计函数

相关系数和协方差

  1. 协方差:衡量同向反向程度,如果协方差为正,说明XY同向变化,协方差越大说明同向程度越高;如果协方差为负,说明XY反向运动,协方差越小说明反向程度越高。

  2. 相关系数:衡量相似度程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,当相关系数为-1时,说明两个变量变化的反向相似度最大。

  df.cov()方法查看协方差矩阵,df.corr()方法查看相关系数矩阵。

Pandas系列(四)数据统计函数

  也可以查看单独两列的相关系数

Pandas系列(四)数据统计函数

相关文章: