数据摘要(一)

摘要:有损的提取数据特征的过程.
1.基本统计(含排序)
2.分布/累计特征
3.数据特征,相关性,周期性等
4.数据挖掘(形成知识)

第一个过程就是排序:
Pandas库的数据排序:
1.使用.sort_index()方法在指定轴上根据索引进行排序,默认纵轴,升序(大的在前面)
   两个主要参数,axis=0,ascending=True
2.sort_values()在指定轴上根据数值进行排序,默认升序
   .对于Series对象,
   Series.sort_values(axis=0,ascending=True)
   .对于DataFrame对象:
   DataFrame.sort_values(by,axis=0,ascending=True)
   by:axis轴上的某个参数或参数列表
   *.NaN值统一(无论升降序)放到排序末尾.
   想要让它参与排序只能将NaN替换

2.数据的基本统计分析:
Pandas库下的方法:

基本的统计方法(适用于Series和DataFrame对象):

只适用于Series类型的统计分析方法:

数据摘要(一)

总方法(内部已经计算了很多统计特征),返回值是Series类型,可以通过索引访问特定统计特征

数据摘要(一)

(discribe方法)从这里可以看出返回类型:

数据摘要(一)

(discribe)使用实例:

数据摘要(一)

3.数据的累计统计分析:
是能够对数据的前1-n个数进行累计运算,少用点for循环,
基本累计分析函数:

滚动计算

凑不够指定的窗口大小就NaN

4.数据的相关分析:
概念介绍:对于两个事物,如何判断他们之间的相关性(正相关,负相关,不相关)?
1.协方差:
原理:

2.Prearson相关系数:
原理:

对Series,DataFrame都适用的相关函数:

例子:

相关文章：

2021-11-11
2022-02-09
2021-10-19
2022-02-02
2021-04-27
2021-07-18
2021-04-17
2022-01-16

猜你喜欢

2022-12-23
2022-02-15
2022-12-23
2021-07-04
2021-10-26
2021-10-16

相关资源

下载 2021-06-05
下载 2021-06-05
下载 2021-06-23

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode