第一部分—统计学基本知识梳理

这一部分是关于统计学的基本知识,离散变量的概率分布,其中离散变量的概率分布包括:二项分布、泊松分布。

信息图形化

图形是发现数据隐含模式的一种有效方法,通过图形,数据得以直观的体现。基本的图表形式如下:

  1. 饼图 :每个扇形的大小代表你所展示的每组数据的相对频率,一般早在对基本比例进行比较时较为有效,所使用的数据为不同组别
  2. 条形图:条形图中的每一个长方形代表一个特定类,长方形的长度代表某种数值。长方形越大,数值越大,包括垂直条形图和水平条形图,处理的数据为类别数据
  3. 直方图:直方图与条形图外观相似,但有两个区别:每个长方形的面积与频数成比例,图上的长方形没有间隔,处理的数据为数值型数据
  4. 箱型图:箱形图,也叫盒须图,盒式图,boxplot,箱型图能够做到:直观明了地识别数据批中的异常值,利用箱线图判断数据批的偏态和尾重,利用箱线图比较几批数据的形状;
    相关资料详情请参考:https://blog.csdn.net/qq_40587575/article/details/80215776

几种常见的统计量

从一大堆数字中看出模式和趋势颇为不易,而求出平均值往往是把握全局的第一步。有了平均数就能迅速的找出数据中最具代表性的数值,得出重要结论。常见的统计量包括:
1.均值:其与平均数不是同一个统计量,平均数包括均值,均值的计算方法是:
第一次任务
当一组数据相差不大时,使用均值能较好的表示数据的总体情况,但数据中一旦存在异常值时,均值将会出现偏差;
2.中位数:当偏斜数据和异常值出现时,我们采用除了均值以外的另一个平均数,将数据升序排列,然后取中间的数,如果有奇数个数,则中位数为位于中间的数值,如果有偶数个数,则将中间两个数相加,然后除以2;
3.众数:如果数据看上去体现了多种趋势或多批数据,那么我们就需要为每一批数据给出一个众数。众数是一组数据中出现次数最多的数值。
4.全距:也叫极差,可以衡量数据的分散情况,计算方法是:用数据集中的最大数减去数据集中的最小数。全距仅仅描述了数据的宽度,并没有描述数据在上下界之间的分布。
5.四分位数:为了消除异常值的影响,采用四分位数,其将数据一分为四,最小的四分位数下四分位数(Q1),最大的四分位数称为上四分位数(Q3),中间的四分位数为中位数,四分位距=上四分位数—下四分位数。
6.方差:能够度量数据的变异性,公式:
第一次任务
7.标准差:方差开根号就是标准差。除了基本公式以外,还有一个方差速算法:
第一次任务

第二部分—离散变量的概率分布

这一部分主要总结的是离散变量的概率分布,包括二项分布、泊松分布。

二项分布

1.形式:
第一次任务
2.适用条件:

  • 所进行的是一系列独立的实验;
  • 每一次实验都存在失败和成功的可能,每一次实验的成功概率相同;
  • 实验次数有限;

3.公式:
第一次任务
写作:X~B(n,p),其中,X表示“n次实验中成功的次数”,p是每一次实验成功的概率,n表示实验的次数。
4.期望和方差:
第一次任务

泊松分布

1.形式:
第一次任务
2.适用条件:

  • 单独事件在给定的区间内随机、独立的发生,给定区间可以是时间或空间,例如可以是一个星期,也可以是一英里;
  • 已知该区间内的事件平均发生的次数(或者叫发生率),且为有限值。

3.公式:
第一次任务
公式推导过程
第一次任务
4.期望和方差:
第一次任务
相关扩展

  • 对于两个独立的随机的随机变量X,Y,
    第一次任务
    X+Y服从新的泊松分布,
    第一次任务
  • 泊松分布和二项分布的关系(后续章节还有正态分布的转换):如果X~B(n,p),当n较大而p较小时,X可以近似表示成:
    第一次任务

相关文章:

  • 2021-11-21
  • 2021-11-17
  • 2021-11-17
  • 2021-08-30
  • 2022-02-23
  • 2021-09-17
猜你喜欢
  • 2021-05-14
  • 2021-09-17
  • 2021-12-03
  • 2021-11-11
  • 2021-06-08
  • 2021-04-17
相关资源
相似解决方案