摘要:有损的提取数据特征的过程.
1.基本统计(含排序)
2.分布/累计特征
3.数据特征,相关性,周期性等
4.数据挖掘(形成知识)
第一个过程就是排序:
Pandas库的数据排序:
1.使用.sort_index()方法在指定轴上根据索引进行排序,默认纵轴,升序(大的在前面)
两个主要参数,axis=0,ascending=True
2.sort_values()在指定轴上根据数值进行排序,默认升序
*.对于Series对象,
Series.sort_values(axis=0,ascending=True)
*.对于DataFrame对象:
DataFrame.sort_values(by,axis=0,ascending=True)
by:axis轴上的某个参数或参数列表
*.NaN值统一(无论升降序)放到排序末尾.
想要让它参与排序只能将NaN替换
2.数据的基本统计分析:
Pandas库下的方法:
基本的统计方法(适用于Series和DataFrame对象):
只适用于Series类型的统计分析方法:

总方法(内部已经计算了很多统计特征),返回值是Series类型,可以通过索引访问特定统计特征

(discribe方法)从这里可以看出返回类型:

(discribe)使用实例:

3.数据的累计统计分析:
是能够对数据的前1-n个数进行累计运算,少用点for循环,
基本累计分析函数:


滚动计算

凑不够指定的窗口大小就NaN
4.数据的相关分析:
概念介绍:对于两个事物,如何判断他们之间的相关性(正相关,负相关,不相关)?
1.协方差:
原理:
2.Prearson相关系数:
原理:
对Series,DataFrame都适用的相关函数:

例子:

相关文章:
-
2021-11-11
-
2022-02-09
-
2021-10-19
-
2022-02-02
-
2021-04-27
-
2021-07-18
-
2021-04-17
-
2022-01-16
猜你喜欢
-
2022-12-23
-
2022-02-15
-
2022-12-23
-
2021-07-04
-
2021-10-26
-
2021-10-16
相关资源
-
下载
2021-06-05
-
下载
2021-06-05
-
下载
2021-06-23