12 均值的假设检验

标签: 机器学习与数据挖掘
(此篇的R代码对应本系列的《12 R语言手册(第五站 单变量分析)》)

1.假设检验基本概念

  假设检验是指使用样本中的证据来断言总体参数值的过程。针对参数值,精心设计了两种矛盾的声明或假设。具体如下:

  • 零假设H0H_0是原假设,表示参数值已经假定的内容。
  • 另一种假设或研究假设HaH_a表示参数值的另一个断言。
    两种可能的结论是 (a)(a) 拒绝 H0H_0(b)(b) 不拒绝 H0H_0 。刑事审判是一种假设检验形式,具有如下的假设:
        H0H_0:被告是无辜的
        HaH_a:被告是有罪的

在这两个假设之下,又有四种情况:

  • 类型I错误:当H0H_0是真时,拒绝H0H_0。陪审团宣判一个无辜的人有罪。
  • 类型IⅡ错误:当H0H_0假时,没有拒绝H0H_0。陪审团无罪释放一个有罪的人。
  • 正确的裁决:当H0H_0是假时,拒绝H0H_0。陪审团宣判一个有罪的人有罪。
  • 正确的裁决:当H0H_0是真时,没有拒绝H0H_0。陪审团无罪释放一个无辜的人。

  类型I错误的概率记为α\alpha,而类型IⅡ错误的概率记为β\beta。对于一个固定样本容量, α\alpha 减小与β\beta增大相关,反之亦然。在统计分析中, α\alpha 通常固定在某个较小值,例如0.05,称之为显著性水平。
均值假设检验的一般处理是将假设限定为以下3种形式:
(其中μ0\mu_0表示μ\mu的一个假设值。)

  • 左尾检验。H0:μμ0H_0:\mu \geqslant \mu _0H0:μ<μ0H_0:\mu <\mu _0
  • 右尾检验。H0:μμ0H_0:\mu \leqslant \mu _0H0:μ>μ0H_0:\mu >\mu _0
  • 双尾检验。H0:μ=μ0H_0:\mu = \mu _0H0:μμ0H_0:\mu \ne \mu _0

当样本容量很大或者总体为正态分布时,检验统计量tdata=xˉμ0snt{data}=\frac{\bar{x}-\mu 0}{\frac{s}{\sqrt{n}}}遵循自由度为n1n-1的t分布。tdatat_{data}的值可理解为在假设的均值 \mu 之上或之下的标准误差数目,样本均值xˉ\bar{x},其中标准误差等于sn\frac{s}{\sqrt{n}}(粗略地讲,标准误差表示统计量分布的分散程度度量)。当tdatat_{data}值为极值时,这表明一种零假设(伴随假设值$ \mu_0 )和观测数据之间的冲突。由于数据表示经验证据零假设仅仅表示一种断言,因此解决这样的冲突有利于数据,因此,当t_{data}为极值时,假设H_0使pp是拒绝的。什么样的极值才算是极值?需要使用 p-值 进行度量。 p-值 是指:如果我们假定零假设为真时,观测样本统计量(比如\bar{x}t_{data}$。)至少与真实测的统计量一样极端的概率。由于 p-值(“概率值”)表示一个概率,因此其值必须总是于 0 和 1 区间。下表说明了针对假设检验形式如何计算p-值。

12 均值的假设检验

假设检验形式的名称表明p-值将会在t分布的哪尾或双尾中发现。
一个较小p-值将表明数据与零假设之间的冲突。因此,如果p-值较小,我们将拒绝H_0。
多小才为较小?因为研究者设置显著性水平α\alpha为某个较小值(比如0.05),因此,如果 p-值 小于α\alpha,我们则认为p-值较小。这引导我们得出拒绝规则:
“如果p-值小于α\alpha,拒绝H0H_0。”

2.比例的假设检验

关于总体比例\pi的假设检验也可以被执行。检验统计量为:
Zdata=pπ0(π0(1π0)/n)Z_{data}=\frac{p-\pi _0}{\sqrt{\left( \pi _0\left( 1-\pi _0 \right) /n \right)}}
(其中,π0\pi_0%为%\pi的假设值,pp为样本比例。)

12 均值的假设检验

3.拓展

关于检验假设的历史,知乎上有个特别好的答案:https://www.zhihu.com/question/317252051/answer/633033538?utm_oi=50144498155520

相关文章:

猜你喜欢
  • 2021-06-15
  • 2021-04-04
  • 2022-12-23
  • 2021-06-15
  • 2022-12-23
  • 2021-11-30
相关资源
相似解决方案