本节主要介绍pandas中数据之间的一些统计相关性:
数据处理
与之前类似,在拿到数据之后,先对数据进行一个初步的处理,采用.str.replace("℃", "").astype('int32')方法将温度转为int类型数据:
汇总类统计
df.describe()方法提取所有数字列的统计结果:
同样可以查看单个Series的统计数据,像均值,最大值,最小值等:
唯一去重和按值计数
对于唯一去重和按值计数一般不用于数值列,而是枚举、分类列。主要是统计数据中大概的种类以及数量:
唯一性去重
.unique()方法统计唯一性:
按值计数
.value_counts()方法统计按值计数:
相关系数和协方差
-
协方差:衡量同向反向程度,如果协方差为正,说明
X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。 -
相关系数:衡量相似度程度,当他们的相关系数为
1时,说明两个变量变化时的正向相似度最大,当相关系数为-1时,说明两个变量变化的反向相似度最大。
df.cov()方法查看协方差矩阵,df.corr()方法查看相关系数矩阵。
也可以查看单独两列的相关系数: