【概率论】- (1)区间估计

文章目录

1. 区间估计与置信区间
2. 正态总体的区间估计

2.1 方差已知，估计均值
2.2 方差未知，估计均值
2.3 均值未知，估计方差
2.4 其他

3. 非正态分布的区间估计

3.1 中心极限定理

Reference

在数据分析过程中，一个完整的闭环是从数据中得到洞察，根据洞察得到某种假设，通过实验检验这一假设。

实验环节中会涉及到一些概率论知识，比如统计推断中重要的两类问题，区间估计和假设检验。之前概率论学过相关知识，但已经有些模糊，在此复习记录。

区间估计
假设检验

1. 区间估计与置信区间

区间估计是什么？

在统计推断中有两类问题，一类为估计问题，一类为假设检验。估计问题中主要包括点估计和区间估计，点估计是估计出一个分布中未知参数的值，区间估计则是估计出一个分布中未知参数所在的范围。

区间估计最终要估计出未知参数所在的区间，这个区间就是经常听到的置信区间，比较严谨的定义如下：

设总体 $X$ 的分布函数 $F(x;\theta)$ 中有未知参数 $\theta$ ，对于给定值 $\alpha(0\lt\alpha\lt1)$ ，若根据 $X$ 的样本 $X_1,X_2,...,X_n$ 确定的两个统计量 $\theta_s$ 与 $\theta_e$ ，满足： $P(\theta_s<\theta<\theta_e)\ge 1-\alpha$ ，则称随机区间 $(\theta_s,\theta_e)$ 是 $\theta$ 的置信水平为 $1-\alpha$ 的置信区间， $1-\alpha$ 称为置信水平， $\theta_s$ 和 $\theta_e$ 分别称为置信下限和置信上限。

用大白话来讲就是，要估计某个参数，比如总体的均值，我们根据观测到的样本计算出一个区间，均值恰好在这个区间内的概率不低于95%，那就称这个区间是置信水平为95%的置信区间。

这里要注意理解的是，置信区间是随机区间，总体的参数是固定的，变的是不同的观测样本计算出的置信区间。比如95%的置信区间，表示在1000次抽样中，计算得到的1000个置信区间，约有950个包含正确的参数。

2. 正态总体的区间估计

在区间估计中，当总体为正态分布时，常见的区间估计场景有以下几种。

先规定符号如下，设给定置信水平为 $1-\alpha$ ，设 $X_1,X_2,...,X_n$ 为总体 $N(\mu,\sigma^2)$ 的样本，样本均值为 $\bar X$ ，样本方差为 $S^2$ 。

2.1 方差已知，估计均值

使用标准正态分布求解，由上述条件，有

$\sum_{i=1}^n X_i \sim N(n\mu, n\sigma^2) ，即\bar X \sim N(\mu, \sigma^2/n)\tag{1}$

转化为标准正态分布，即

$\frac{\bar X-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\tag{2}$

置信水平为 $1-\alpha$ ，根据标准正态分布的上分位点，有

$P(-z_{\alpha/2}<\frac{\bar X-\mu}{\sigma/\sqrt{n}}<z_{\alpha/2})=1-\alpha\tag{3}$

解得均值的置信水平为 $1-\alpha$ 的置信区间为

$\bar X-\frac{\sigma}{\sqrt{n}}z_{\alpha/2}<\mu<\bar X+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}\tag{4}$

2.2 方差未知，估计均值

使用t分布 求解，由正态分布与t分布的关系，有

$\frac{\bar X-\mu}{S/\sqrt{n}} \sim t(n-1)\tag{5}$

置信水平为 $1-\alpha$ ，根据t分布的上分位点，有

$P(-t_{\alpha/2}<\frac{\bar X-\mu}{S/\sqrt{n}}<t_{\alpha/2})=1-\alpha\tag{6}$

解得均值的置信水平为 $1-\alpha$ 的置信区间为

$\bar X-\frac{S}{\sqrt{n}}t_{\alpha/2}<\mu<\bar X+\frac{S}{\sqrt{n}}t_{\alpha/2}\tag{7}$

2.3 均值未知，估计方差

使用卡方分布 求解，由正态分布与卡方分布的关系，有

$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\tag{8}$

置信水平为 $1-\alpha$ ，根据卡方分布的上分位点，注意这里的下标与上面的有些区别，因为卡方分布的密度函数不对称

$P(\chi^2_{1-\alpha/2}(n-1)<\frac{(n-1)S^2}{\sigma^2}<\chi^2_{\alpha/2}(n-1))=1-\alpha\tag{9}$

解得均值的置信水平为 $1-\alpha$ 的置信区间为

$\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}<\mu<\frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\tag{10}$

2.4 其他

从上面三种情况，对区间估计的大体思路应该比较清晰，对于其他的场景也是用相同的方法，转化为相应的分布，根据分位点求解区间即可。

比如方差已知时，求两个正态分布均值的差，可根据正态分布的性质同样转化为标准正态分布求解。

3. 非正态分布的区间估计

3.1 中心极限定理

对于非正态分布来说，严格来说相同场景下无法使用上述的公式求解，但是通常也可根据中心极限定理近似地使用上述结果。

中心极限定理：设从任意一个总体中抽取样本量为 $n$ 的样本，当 $n$ 充分大时，样本均值近似服从于正态分布。

简单来说，就是当样本量越来越大时，样本均值的分布会趋近于正态分布，如下图，蓝色为不同样本量下的样本均值分布，黄线为正态分布曲线。

【概率论】- (1)区间估计

因此当我们的样本量较大时，虽然不服从正态分布，但可以近似使用，如下例子：

设有一容量大于50的大样本，来自二项分布的总体 $X$ ， $X$ 的分布律为 $f(x)=p^x(1-p)^{1-x},x=0,1$ ，其中 $p$ 为未知参数，求 $p$ 的置信水平为 $1-\alpha$ 的置信区间。

已知 $X$ 的均值为 $\mu=p$ ，方差为 $\sigma^2=p(1-p)$ ， $X_1,X_2,...,X_n$ 是来自该二项分布的大样本，则根据中心极限定理，有以下式子近似成立

$\frac{\sum_{i=1}^nX-np}{\sqrt{np(1-p)}}=\frac{n\bar X-np}{\sqrt{np(1-p)}} \sim N(0,1)\tag{11}$

则根据标准正态分布的上分位点，有

$P(-z_{\alpha/2}<\frac{n\bar X-np}{\sqrt{np(1-p)}}<z_{\alpha/2})=1-\alpha\tag{12}$

即可解得所求置信区间。

Reference

《浙江大学概率论与数理统计第四版》