为什么样本方差的估计要除以n-1?
参数估计
点估计
-
矩估计法
计算总体X的k阶原点矩
\(\mu_{l}=E\left(x^{l}\right)\)
令样本矩等于总体矩
求解上述方程,得到矩估计值
-
最大似然估计
(1) \(\quad\) 写出似然函数 \(L(\theta)=\prod_{i=1}^{n} f\left(x_{i}, \theta\right)\left(\right.\) 或 \(\left.L(\theta)=\prod_{i=1}^{n} p\left(x_{i}, \theta\right)\right)\)
(2) 求出使 L(\(\theta\))达到最大值的 \(\theta\). \(\mathrm{L}(\theta)\) 是 \(\mathrm{n}\) 个乘积的形式, 而且 \(\mathrm{L}(\theta)\) 与 \(\ln \mathrm{L}(\theta)\) 在同一 \(\theta\) 处取极值, 因此的 \(\theta\)
最大似然估计量 \(\theta\) 可以从 \(\frac{d l n(\theta)}{d \theta}=0 \quad(\) 对数似然方程 \()\) 求得。
(3) \(\quad\) 用 \(\theta\) 作为 \(\theta\) 的估计量。
估计量的评选标准
\(1 . \quad\) 无偏性 \(\mathrm{E}(\theta)=\theta\)
\(2 . \quad\) 有效性 \(\mathrm{D}\left(\theta_{1}\right) \leq \mathrm{D}\left(\theta_{2}\right)\)
\(3 .\) 相合性 \(\theta \longrightarrow P\)
区间估计
在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
关于置信水平(置信度)、置信区间和显著性水平:
置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
置信水平用百分数表示,表示成(1-a)100%;a指的是显著性水平,表示总体参数不落在置信区间的可能性。
总体均值的区间估计:
均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关;
Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布,
Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30;
T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型;
切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。
以下证明 \(\bar{X} \sim N\left(\mu, \sigma^{2} / n\right)\)
由定理 当 \(X \sim N\left(\mu_{x}, \sigma_{x}^{2}\right), Y \sim N\left(\mu_{y}, \sigma_{y}^{2}\right)\) 且 \(X, Y\) 独立时,则 \(a X+b Y\) (a,b为不全为0的系数)也遵循正态 分布, \(a X+b Y \sim N\left(a \mu_{x}+b \mu_{y}, a^{2} \sigma_{x}^{2}+b^{2} \sigma_{y}^{2}\right)\)
所以 \(\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} \sim N\left(\frac{1}{n} \sum_{i=1}^{n} \mu_{i}, \frac{1}{n^{2}} \sum_{i=1}^{n} \sigma_{i}^{2}\right)=N\left(\mu, \sigma^{2} / n\right)\)
总体方差的区间估计:
总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。
卡方统计量的计算公式:
\(\chi_{\alpha}^{2}(n-1)=\frac{(n-1) s^{2}}{\sigma_{z}^{2}}\)
总体方差的双侧置信区间估计公式为:
\(\frac{(n-1) s^{2}}{\chi_{\frac{\alpha}{2}}^{2}(n-1)} \leq \sigma_{z}^{2} \leq \frac{(n-1) s^{2}}{\chi_{1}^{2}-\frac{\alpha}{2}(n-1)}\)
我们通常定义
\(E\left(S^{2}\right)=E\left[\frac{1}{n-1}\left(\left(\sum_{i=1}^{n} X_{i}^{2}\right)-n \bar{X}^{2}\right)\right]\)
\(=\frac{1}{n-1}\left[\left(\sum_{i=1}^{n} E\left(X_{i}^{2}\right)\right)-n E\left(\bar{X}^{2}\right)\right]\)
\(=\frac{1}{n-1}\left[\left(\sum_{i=1}^{n} \sigma^{2}+\mu^{2}\right)-n\left(\sigma^{2} / n+\mu^{2}\right)\right]\)
\(=\sigma^{2}\)
实际上在上面提到对 \(S^{2}\) 有 \(\frac{(n-1) S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\left(\frac{X_{i}-\bar{X}}{\sigma}\right)^{2} \sim \chi^{2}(n-1)\)
所以 \(2(n-1)=D\left(\frac{(n-1) S^{2}}{\sigma^{2}}\right)=\frac{(n-1)^{2}}{\sigma^{4}} D\left(S^{2}\right),\) 即
\(D\left(S^{2}\right)=\frac{2 \sigma^{4}}{n-1}\)
反过来想, 有 \(E\left(\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right)\)
\(=(n-1) E\left(\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right)\)
\(=(n-1) E\left(S^{2}\right)\)
\(=(n-1) \sigma^{2}\)
为什么除以n-1?
这个公式是通过修正下面的方差计算公式而来的:
\(s^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\)
修正过程为:
我们看到的其实是修正后的结果:
\(E\left(S^{2}\right)=E\left[\frac{1}{n-1}\left(\left(\sum_{i=1}^{n} X_{i}^{2}\right)-n \bar{X}^{2}\right)\right]\)
\(=\frac{1}{n-1}\left[\left(\sum_{i=1}^{n} E\left(X_{i}^{2}\right)\right)-n E\left(\bar{X}^{2}\right)\right]\)
\(=\frac{1}{n-1}\left[\left(\sum_{i=1}^{n} \sigma^{2}+\mu^{2}\right)-n\left(\sigma^{2} / n+\mu^{2}\right)\right]\)
\(=\sigma^{2}\)
但是没有修正前的
\(E\left(s^{2}\right)=E\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right) \neq \sigma^{2}\)
\(\begin{aligned} s^{2} &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(\left(x_{i}-\mu\right)+(\mu-\bar{x})\right)^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{2}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)(\mu-\bar{x})+\frac{1}{n} \sum_{i=1}^{n}(\mu-\bar{x})^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-2(\bar{x}-\mu)(\mu-\bar{x})+(\mu-\bar{x})^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-(\mu-\bar{x})^{2} \leq \frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} \end{aligned}\)
\(s^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}<\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}\)
所以要对方差计算公式进行修正,修正公式如下:
\(s^{2}=\frac{n}{n-1}\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right)\)
下面引出修正:
\(\begin{aligned} E\left(s^{2}\right) &=E\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right) \\ &=E\left[\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}\right)^{2}-\frac{2}{n} \sum_{i=1}^{n}\left(x_{i}\right)(\bar{x})+\frac{1}{n} \sum_{i=1}^{n}(\bar{x})^{2}\right] \\ &=E\left[\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}\right)^{2}-2(\bar{x})^{2}+(\bar{x})^{2}\right] \\ &=E\left[\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}\right)^{2}-(\bar{x})^{2}\right]^{2} \\ &=E\left[\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}\right)^{2}\right]-E\left[(\bar{x})^{2}\right] \\ &=E\left[\left(x_{i}\right)^{2}\right]-E\left[(\bar{x})^{2}\right] \\ &=D\left[\left(x_{i}\right)^{2}\right]+\left(E\left[x_{i}\right]\right)^{2}-\left(D\left[(\bar{x})^{2}\right]+(E[x])^{2}\right) \end{aligned}\)
\(E[\bar{x}]=\bar{x}=E\left[x_{i}\right], D[\bar{x}]=\frac{1}{n} D[x](i=1,2 \cdots, n)\)
\(E\left(s^{2}\right)=D(x)-\frac{1}{n} D(x)=\frac{n-1}{n} D(x)=\frac{n-1}{n} \sigma^{2}\)
在这里如果想修正的方差公式, 让修正后的方差公式求出的方差的期望为总体方差的话就需要在没有修正的方差公式前面加上来进行修
正, 即:
所以就会有这样的修正公式:
而我们看到的都是修正后的最终结果: