来源:http://study.163.com/course/courseMain.htm?courseId=1005232026
索引——
- 基本概念
- 连续变量的统计描述
- 分类变量的统计描述
- 正太分布
- 二项分布
- 参数估计与可信区间
- 假设检验
二、连续变量的统计描述
1、统计方法
1.1 频数表
组数:不宜过多或过少,保证大多数组都有个观察值
组距:确定全距猴,进行等距分组,组距(约等于)极差/组数
上下限:各组的起点称为该组下限,终点称为上限
1.2 直方图/频数图
从频数图/表中可获得的信息:
(1)集中趋势:高峰组段在什么位置出现
(2)离散趋势:数据分布范围、分散程度如何
(3)分布形状:是否对称,分布曲线的形状;正、负偏(尾巴在那边就偏哪边,推荐说法)和左、右偏
(4)分布特征:如一个高峰还是两个高峰,有无偏移得较远的值
2、集中趋势(central tendency)描述指标
2.1 均数(mean):即算数平均数,描述一组数据在数量上的平均水平;
总体均数和样本均数用不同符号表示:μ和
均数的书写都应该带有测量单位,如:身高1.7米;
均数的实质:把各个原始值抽象画,集中在一个平均水平上。
均数的优点:(1)高度浓缩,一个数值代表整个个体的水平;(2)便于比较、传播
均数缺点:(1)大锅饭:掩盖了数据间的差异性;(2)欺骗性:对个别极端值反应比较灵敏 ,如图:
均数使用范围:对称分布的资料,特别是正太分布资料,如图:
2.2 中位数(median):符号用M表示,将全体顺序按大小顺序排列,处于中间位置的那个值,若中间位置有俩个数,则将这俩个数加起来除以2,即为中位数。
中位数优点:是位置平均数,不受极端值的影响,在具有个别极大/绩效的分布数列中,中位数比算数平均数更具代表性。
中位数的缺点:(1)会损失部分信息;(2)不受人人都能理解;(3)样本量少时,不稳定;
PS:对于对称分布的资料,优先考虑用均数;均数不能使用的情况,采用中位数描述。
2.3 几何均数(Geometric mean):用符号G表示。
2.4 众数
2.5 截尾均数:截掉极端值,剩下的数据进行计算
3、集中趋势的 Excel分析
3.1 默认显示
3.2 Excel 函数
Average()、Median()、Geomean()、Mode()、Trimmean()
3.3 分析工具和加载宏
结果:
(二)离散趋势(Dispersion trend)的描述指标
1 全距(Range):即最大值与最小值之差
优点:易理解,使用范围广
缺点:不稳定
2 离均差:对个体而言,可表示离散(偏离)程度大小
离均差 = 个体值 - 平均数
离均差平方和的大小与样本量有关
3 方差(Variance):表示整个样本或者离散程度的指标
方差 = 离均差平方和 / 样本量N
方差公式:【方差 = (个体值 - 平均数)^2 / 样本量】
方差的应用存在的问题:
如:成年男子的身高离散程度为3.2平方米(别扭。。。)
解决方法:转化为标准差
4 标准差(std.deviation):适用于左右对称的数据
标准差公式:
标准差应用存在的问题:
(1)测量尺度相差太大:如比较蚂蚁与大象的体重变异;(2)量纲不同:如比较身高和体重的变异程度
5、变异系数:比较不同群统的变异程度
公式:变异系数 = 样本量 / 平均数
6、方差-标准差-变异系数的使用范围:以均数作为集中趋势代表值
本质上只使用与正态分布资料
7、百分位数:用Px表示。描述离散趋势,适用于各种分布
7.1 常用的百分位数:P2.5、P5、P10、P25、P50、P75、P90、P95、P97.5
7.2 百分位数的优点:使用范围广
7.3 百分位数的缺点:样本量大时结果才比较稳定
8、四分位数:即P25、P50、P75分位数的总称,将样本值四等分。如:用于配件消耗量的离散程度
P25和P75之间包括了中间50%的观察值,能反映较多数据的离散程度,排除两侧极端值的影响。
9、离散趋势的Excel分析
8.1 运用函数
var.p()、stdev.p()、percentile.inc()、quartile.inc()
8.2 分析工具加载宏方式
(三)分布形状描述指标
常用的正太分布的俩指标:
偏度系数:正态峰、正偏态、负偏态
峰度系数:正态峰、平阔峰、尖峭峰
(四)离群值与极端值列表
(五)连续变量描述的软件实现
1、SAS
|
proc means |
用于均数、标准差等的描述 |
|
proc summary |
用于ODS输出,定向输出(输出pdf、Excel等) |
|
proc univariate |
全面输出,结果最详细 |
|
proc tabulate |
制表输出 |
2、SPSS
2.1 描述统计子菜单:给出常用描述指标,不将就格式紧凑,如统计图、条形图等也有
2.2 表/报告子菜单:以指标形式实现各种描述指标,如调和均数、几何均数等
3、Python
|
numpy包 |
内置汇总函数,本质与Excel 无区别 |
|
pandas包 |
df.describe(),或者用agg函数完成分组描述 |
|
statsmodels.stats.weightstats.DescrStatsW |
|
4、R
4.1 一堆小函数
4.2 summary()
4.3 Hmisc.describe()