来源:http://study.163.com/course/courseMain.htm?courseId=1005232026

 

 

索引——

  • 基本概念
  • 连续变量的统计描述
  • 分类变量的统计描述
  • 正太分布
  • 二项分布
  • 参数估计与可信区间
  • 假设检验

 

 

二、连续变量的统计描述

 

1、统计方法

     1.1 频数表

     组数:不宜过多或过少,保证大多数组都有个观察值

     组距:确定全距猴,进行等距分组,组距(约等于)极差/组数

     上下限:各组的起点称为该组下限,终点称为上限

     1.2 直方图/频数图

     从频数图/表中可获得的信息:

     (1)集中趋势:高峰组段在什么位置出现

     (2)离散趋势:数据分布范围、分散程度如何

     (3)分布形状:是否对称,分布曲线的形状;正、负偏(尾巴在那边就偏哪边,推荐说法)和左、右偏

     (4)分布特征:如一个高峰还是两个高峰,有无偏移得较远的值

2、集中趋势(central tendency)描述指标

     2.1 均数(mean):即算数平均数,描述一组数据在数量上的平均水平;

                              总体均数和样本均数用不同符号表示:μ和【学习笔记】统计学入门(2/7)——连续变量的统计描述

                              均数的书写都应该带有测量单位,如:身高1.7米;

                              均数的实质:把各个原始值抽象画,集中在一个平均水平上。

           均数的优点:(1)高度浓缩,一个数值代表整个个体的水平;(2)便于比较、传播

           均数缺点:(1)大锅饭:掩盖了数据间的差异性;(2)欺骗性:对个别极端值反应比较灵敏 ,如图:                          

                         【学习笔记】统计学入门(2/7)——连续变量的统计描述

           均数使用范围:对称分布的资料,特别是正太分布资料,如图:

               【学习笔记】统计学入门(2/7)——连续变量的统计描述

      2.2 中位数(median):符号用M表示,将全体顺序按大小顺序排列,处于中间位置的那个值,若中间位置有俩个数,则将这俩个数加起来除以2,即为中位数。

       中位数优点:是位置平均数,不受极端值的影响,在具有个别极大/绩效的分布数列中,中位数比算数平均数更具代表性。

       中位数的缺点:(1)会损失部分信息;(2)不受人人都能理解;(3)样本量少时,不稳定;  

       PS:对于对称分布的资料,优先考虑用均数;均数不能使用的情况,采用中位数描述。

 

     2.3 几何均数(Geometric mean):用符号G表示。

     2.4 众数

     2.5 截尾均数:截掉极端值,剩下的数据进行计算

     

3、集中趋势的 Excel分析

    3.1 默认显示

     【学习笔记】统计学入门(2/7)——连续变量的统计描述

 

    3.2 Excel 函数

     Average()、Median()、Geomean()、Mode()、Trimmean()

 

    3.3 分析工具和加载宏

     【学习笔记】统计学入门(2/7)——连续变量的统计描述

     【学习笔记】统计学入门(2/7)——连续变量的统计描述

     结果:

    【学习笔记】统计学入门(2/7)——连续变量的统计描述

 

(二)离散趋势(Dispersion trend)的描述指标

    

1 全距(Range):即最大值与最小值之差

          优点:易理解,使用范围广

          缺点:不稳定

     

2 离均差:对个体而言,可表示离散(偏离)程度大小

          离均差 = 个体值 - 平均数

          离均差平方和的大小与样本量有关

 

3 方差(Variance):表示整个样本或者离散程度的指标

          方差 = 离均差平方和 / 样本量N     

          方差公式:【方差 = (个体值 - 平均数)^2 / 样本量】

               【学习笔记】统计学入门(2/7)——连续变量的统计描述

           方差的应用存在的问题:

               如:成年男子的身高离散程度为3.2平方米(别扭。。。)

               解决方法:转化为标准差

 

4 标准差(std.deviation):适用于左右对称的数据

           标准差公式:

              【学习笔记】统计学入门(2/7)——连续变量的统计描述    【学习笔记】统计学入门(2/7)——连续变量的统计描述

           标准差应用存在的问题:

           (1)测量尺度相差太大:如比较蚂蚁与大象的体重变异;(2)量纲不同:如比较身高和体重的变异程度     

     

5、变异系数:比较不同群统的变异程度

     公式:变异系数 = 样本量 / 平均数

          【学习笔记】统计学入门(2/7)——连续变量的统计描述

6、方差-标准差-变异系数的使用范围:以均数作为集中趋势代表值

     本质上只使用与正态分布资料

     

7、百分位数:Px表示。描述离散趋势,适用于各种分布

     7.1 常用的百分位数:P2.5、P5、P10、P25、P50、P75、P90、P95、P97.5

     7.2 百分位数的优点:使用范围广

     7.3 百分位数的缺点:样本量大时结果才比较稳定

8、四分位数:即P25、P50、P75分位数的总称,将样本值四等分。如:用于配件消耗量的离散程度

                     P25和P75之间包括了中间50%的观察值,能反映较多数据的离散程度,排除两侧极端值的影响。

       

9、离散趋势的Excel分析

     8.1 运用函数

          var.p()、stdev.p()、percentile.inc()、quartile.inc()

     8.2 分析工具加载宏方式

 

(三)分布形状描述指标 

常用的正太分布的俩指标:

     偏度系数:正态峰、正偏态、负偏态

     峰度系数:正态峰、平阔峰、尖峭峰

(四)离群值与极端值列表

 

(五)连续变量描述的软件实现

1、SAS

 

proc means

用于均数、标准差等的描述

proc summary

用于ODS输出,定向输出(输出pdf、Excel等)

proc univariate

全面输出,结果最详细

proc tabulate

制表输出

 

2、SPSS

     2.1 描述统计子菜单:给出常用描述指标,不将就格式紧凑,如统计图、条形图等也有

     2.2 表/报告子菜单:以指标形式实现各种描述指标,如调和均数、几何均数等

     【学习笔记】统计学入门(2/7)——连续变量的统计描述

         

3、Python

     

numpy包

内置汇总函数,本质与Excel 无区别

pandas包

df.describe(),或者用agg函数完成分组描述

statsmodels.stats.weightstats.DescrStatsW

 

 

4、R

     4.1 一堆小函数

     4.2 summary()

     4.3 Hmisc.describe()

 

 

 

 

 

 

相关文章:

  • 2021-10-25
  • 2021-04-24
  • 2021-07-27
  • 2021-11-17
  • 2022-12-23
  • 2021-04-19
  • 2022-01-07
  • 2021-06-25
猜你喜欢
  • 2021-08-13
  • 2022-12-23
  • 2021-10-26
  • 2021-10-24
  • 2021-11-17
  • 2021-12-05
  • 2022-01-09
相关资源
相似解决方案