在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设

实验环节中会涉及到一些概率论知识,比如统计推断中重要的两类问题,区间估计假设检验。之前概率论学过相关知识,但已经有些模糊,在此复习记录。

  • 区间估计
  • 假设检验

1. 区间估计与置信区间

区间估计是什么?

在统计推断中有两类问题,一类为估计问题,一类为假设检验。估计问题中主要包括点估计区间估计,点估计是估计出一个分布中未知参数的值,区间估计则是估计出一个分布中未知参数所在的范围

区间估计最终要估计出未知参数所在的区间,这个区间就是经常听到的置信区间,比较严谨的定义如下:

设总体 XX 的分布函数 F(x;θ)F(x;\theta) 中有未知参数 θ\theta,对于给定值 α(0<α<1)\alpha(0\lt\alpha\lt1),若根据 XX 的样本 X1,X2,...,XnX_1,X_2,...,X_n 确定的两个统计量 θs\theta_sθe\theta_e,满足:P(θs<θ<θe)1αP(\theta_s<\theta<\theta_e)\ge 1-\alpha,则称随机区间 (θs,θe)(\theta_s,\theta_e)θ\theta 的置信水平为 1α1-\alpha置信区间1α1-\alpha 称为置信水平,θs\theta_sθe\theta_e 分别称为置信下限和置信上限。

用大白话来讲就是,要估计某个参数,比如总体的均值,我们根据观测到的样本计算出一个区间,均值恰好在这个区间内的概率不低于95%,那就称这个区间是置信水平为95%的置信区间。

这里要注意理解的是,置信区间是随机区间,总体的参数是固定的,变的是不同的观测样本计算出的置信区间。比如95%的置信区间,表示在1000次抽样中,计算得到的1000个置信区间,约有950个包含正确的参数。

2. 正态总体的区间估计

在区间估计中,当总体为正态分布时,常见的区间估计场景有以下几种。

先规定符号如下,设给定置信水平为 1α1-\alpha,设X1,X2,...,XnX_1,X_2,...,X_n 为总体 N(μ,σ2)N(\mu,\sigma^2) 的样本,样本均值为 Xˉ\bar X,样本方差为 S2S^2

2.1 方差已知,估计均值

  • 使用标准正态分布求解,由上述条件,有

i=1nXiN(nμ,nσ2)XˉN(μ,σ2/n)(1) \sum_{i=1}^n X_i \sim N(n\mu, n\sigma^2) ,即\bar X \sim N(\mu, \sigma^2/n)\tag{1}

  • 转化为标准正态分布,即

Xˉμσ/nN(0,1)(2) \frac{\bar X-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\tag{2}

  • 置信水平为 1α1-\alpha,根据标准正态分布的上分位点,有

P(zα/2<Xˉμσ/n<zα/2)=1α(3) P(-z_{\alpha/2}<\frac{\bar X-\mu}{\sigma/\sqrt{n}}<z_{\alpha/2})=1-\alpha\tag{3}

  • 解得均值的置信水平为 1α1-\alpha 的置信区间为

Xˉσnzα/2<μ<Xˉ+σnzα/2(4) \bar X-\frac{\sigma}{\sqrt{n}}z_{\alpha/2}<\mu<\bar X+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}\tag{4}

2.2 方差未知,估计均值

  • 使用t分布 求解,由正态分布与t分布的关系,有

XˉμS/nt(n1)(5) \frac{\bar X-\mu}{S/\sqrt{n}} \sim t(n-1)\tag{5}

  • 置信水平为 1α1-\alpha,根据t分布的上分位点,有

P(tα/2<XˉμS/n<tα/2)=1α(6) P(-t_{\alpha/2}<\frac{\bar X-\mu}{S/\sqrt{n}}<t_{\alpha/2})=1-\alpha\tag{6}

  • 解得均值的置信水平为 1α1-\alpha 的置信区间为

XˉSntα/2<μ<Xˉ+Sntα/2(7) \bar X-\frac{S}{\sqrt{n}}t_{\alpha/2}<\mu<\bar X+\frac{S}{\sqrt{n}}t_{\alpha/2}\tag{7}

2.3 均值未知,估计方差

  • 使用卡方分布 求解,由正态分布与卡方分布的关系,有

(n1)S2σ2χ2(n1)(8) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\tag{8}

  • 置信水平为 1α1-\alpha,根据卡方分布的上分位点,注意这里的下标与上面的有些区别,因为卡方分布的密度函数不对称

P(χ1α/22(n1)<(n1)S2σ2<χα/22(n1))=1α(9) P(\chi^2_{1-\alpha/2}(n-1)<\frac{(n-1)S^2}{\sigma^2}<\chi^2_{\alpha/2}(n-1))=1-\alpha\tag{9}

  • 解得均值的置信水平为 1α1-\alpha 的置信区间为

(n1)S2χα/22(n1)<μ<(n1)S2χ1α/22(n1)(10) \frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}<\mu<\frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\tag{10}

2.4 其他

从上面三种情况,对区间估计的大体思路应该比较清晰,对于其他的场景也是用相同的方法,转化为相应的分布,根据分位点求解区间即可。

比如方差已知时,求两个正态分布均值的差,可根据正态分布的性质同样转化为标准正态分布求解。

3. 非正态分布的区间估计

3.1 中心极限定理

对于非正态分布来说,严格来说相同场景下无法使用上述的公式求解,但是通常也可根据中心极限定理近似地使用上述结果。

中心极限定理:设从任意一个总体中抽取样本量为 nn 的样本,当 nn 充分大时,样本均值近似服从于正态分布。

简单来说,就是当样本量越来越大时,样本均值的分布会趋近于正态分布,如下图,蓝色为不同样本量下的样本均值分布,黄线为正态分布曲线。

【概率论】- (1)区间估计

因此当我们的样本量较大时,虽然不服从正态分布,但可以近似使用,如下例子:

设有一容量大于50的大样本,来自二项分布的总体 XXXX 的分布律为 f(x)=px(1p)1x,x=0,1f(x)=p^x(1-p)^{1-x},x=0,1,其中pp 为未知参数,求 pp 的置信水平为 1α1-\alpha 的置信区间。

  • 已知 XX 的均值为 μ=p\mu=p,方差为 σ2=p(1p)\sigma^2=p(1-p)X1,X2,...,XnX_1,X_2,...,X_n 是来自该二项分布的大样本,则根据中心极限定理,有以下式子近似成立

i=1nXnpnp(1p)=nXˉnpnp(1p)N(0,1)(11) \frac{\sum_{i=1}^nX-np}{\sqrt{np(1-p)}}=\frac{n\bar X-np}{\sqrt{np(1-p)}} \sim N(0,1)\tag{11}

  • 则根据标准正态分布的上分位点,有

P(zα/2<nXˉnpnp(1p)<zα/2)=1α(12) P(-z_{\alpha/2}<\frac{n\bar X-np}{\sqrt{np(1-p)}}<z_{\alpha/2})=1-\alpha\tag{12}

  • 即可解得所求置信区间。

Reference

  1. 《浙江大学概率论与数理统计第四版》

相关文章: