摘要:有损的提取数据特征的过程.
1.基本统计(含排序)
2.分布/累计特征
3.数据特征,相关性,周期性等
4.数据挖掘(形成知识)

第一个过程就是排序:
Pandas库的数据排序:
1.使用.sort_index()方法在指定轴上根据索引进行排序,默认纵轴,升序(大的在前面)
    两个主要参数,axis=0,ascending=True
2.sort_values()在指定轴上根据数值进行排序,默认升序
    *.对于Series对象,
     Series.sort_values(axis=0,ascending=True)
    *.对于DataFrame对象:
     DataFrame.sort_values(by,axis=0,ascending=True)
     by:axis轴上的某个参数或参数列表
    *.NaN值统一(无论升降序)放到排序末尾.
     想要让它参与排序只能将NaN替换

2.数据的基本统计分析:
Pandas库下的方法:

基本的统计方法(适用于Series和DataFrame对象):
数据摘要(一)

 只适用于Series类型的统计分析方法:

数据摘要(一)

总方法(内部已经计算了很多统计特征),返回值是Series类型,可以通过索引访问特定统计特征

数据摘要(一)

(discribe方法)从这里可以看出返回类型:

数据摘要(一)

(discribe)使用实例:

数据摘要(一)

 

3.数据的累计统计分析:
是能够对数据的前1-n个数进行累计运算,少用点for循环,
基本累计分析函数:

数据摘要(一)

数据摘要(一)

滚动计算

数据摘要(一)

凑不够指定的窗口大小就NaN

 

4.数据的相关分析:
概念介绍:对于两个事物,如何判断他们之间的相关性(正相关,负相关,不相关)?
1.协方差:
原理:
数据摘要(一)    

2.Prearson相关系数:
原理:
数据摘要(一)   

对Series,DataFrame都适用的相关函数:

数据摘要(一)
例子:

数据摘要(一)
 

相关文章:

  • 2021-11-11
  • 2022-02-09
  • 2021-10-19
  • 2022-02-02
  • 2021-04-27
  • 2021-07-18
  • 2021-04-17
  • 2022-01-16
猜你喜欢
  • 2022-12-23
  • 2022-02-15
  • 2022-12-23
  • 2021-07-04
  • 2021-10-26
  • 2021-10-16
相关资源
相似解决方案