在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。
实验环节中会涉及到一些概率论知识,比如统计推断中重要的两类问题,区间估计和假设检验。之前概率论学过相关知识,但已经有些模糊,在此复习记录。
1. 区间估计与置信区间
区间估计是什么?
在统计推断中有两类问题,一类为估计问题,一类为假设检验。估计问题中主要包括点估计和区间估计,点估计是估计出一个分布中未知参数的值,区间估计则是估计出一个分布中未知参数所在的范围。
区间估计最终要估计出未知参数所在的区间,这个区间就是经常听到的置信区间,比较严谨的定义如下:
设总体 X 的分布函数 F(x;θ) 中有未知参数 θ,对于给定值 α(0<α<1),若根据 X 的样本 X1,X2,...,Xn 确定的两个统计量 θs 与 θe,满足:P(θs<θ<θe)≥1−α,则称随机区间 (θs,θe) 是 θ 的置信水平为 1−α 的置信区间,1−α 称为置信水平,θs 和 θe 分别称为置信下限和置信上限。
用大白话来讲就是,要估计某个参数,比如总体的均值,我们根据观测到的样本计算出一个区间,均值恰好在这个区间内的概率不低于95%,那就称这个区间是置信水平为95%的置信区间。
这里要注意理解的是,置信区间是随机区间,总体的参数是固定的,变的是不同的观测样本计算出的置信区间。比如95%的置信区间,表示在1000次抽样中,计算得到的1000个置信区间,约有950个包含正确的参数。
2. 正态总体的区间估计
在区间估计中,当总体为正态分布时,常见的区间估计场景有以下几种。
先规定符号如下,设给定置信水平为 1−α,设X1,X2,...,Xn 为总体 N(μ,σ2) 的样本,样本均值为 Xˉ,样本方差为 S2。
2.1 方差已知,估计均值
i=1∑nXi∼N(nμ,nσ2),即Xˉ∼N(μ,σ2/n)(1)
σ/nXˉ−μ∼N(0,1)(2)
- 置信水平为 1−α,根据标准正态分布的上分位点,有
P(−zα/2<σ/nXˉ−μ<zα/2)=1−α(3)
- 解得均值的置信水平为 1−α 的置信区间为
Xˉ−nσzα/2<μ<Xˉ+nσzα/2(4)
2.2 方差未知,估计均值
S/nXˉ−μ∼t(n−1)(5)
- 置信水平为 1−α,根据t分布的上分位点,有
P(−tα/2<S/nXˉ−μ<tα/2)=1−α(6)
- 解得均值的置信水平为 1−α 的置信区间为
Xˉ−nStα/2<μ<Xˉ+nStα/2(7)
2.3 均值未知,估计方差
- 使用卡方分布 求解,由正态分布与卡方分布的关系,有
σ2(n−1)S2∼χ2(n−1)(8)
- 置信水平为 1−α,根据卡方分布的上分位点,注意这里的下标与上面的有些区别,因为卡方分布的密度函数不对称
P(χ1−α/22(n−1)<σ2(n−1)S2<χα/22(n−1))=1−α(9)
- 解得均值的置信水平为 1−α 的置信区间为
χα/22(n−1)(n−1)S2<μ<χ1−α/22(n−1)(n−1)S2(10)
2.4 其他
从上面三种情况,对区间估计的大体思路应该比较清晰,对于其他的场景也是用相同的方法,转化为相应的分布,根据分位点求解区间即可。
比如方差已知时,求两个正态分布均值的差,可根据正态分布的性质同样转化为标准正态分布求解。
3. 非正态分布的区间估计
3.1 中心极限定理
对于非正态分布来说,严格来说相同场景下无法使用上述的公式求解,但是通常也可根据中心极限定理近似地使用上述结果。
中心极限定理:设从任意一个总体中抽取样本量为 n 的样本,当 n 充分大时,样本均值近似服从于正态分布。
简单来说,就是当样本量越来越大时,样本均值的分布会趋近于正态分布,如下图,蓝色为不同样本量下的样本均值分布,黄线为正态分布曲线。

因此当我们的样本量较大时,虽然不服从正态分布,但可以近似使用,如下例子:
设有一容量大于50的大样本,来自二项分布的总体 X,X 的分布律为 f(x)=px(1−p)1−x,x=0,1,其中p 为未知参数,求 p 的置信水平为 1−α 的置信区间。
- 已知 X 的均值为 μ=p,方差为 σ2=p(1−p),X1,X2,...,Xn 是来自该二项分布的大样本,则根据中心极限定理,有以下式子近似成立
np(1−p)∑i=1nX−np=np(1−p)nXˉ−np∼N(0,1)(11)
P(−zα/2<np(1−p)nXˉ−np<zα/2)=1−α(12)
Reference
- 《浙江大学概率论与数理统计第四版》