在假设检验中,由于样本信息的局限性,所产生的错误。
假设检验的两类错误

I类错误(α错误/弃真错误)

原假设H0正确,但检验结论不满足显著性水平要求(P-value < α ),进而拒绝了原假设H0。犯I类错误的概率记为α。
【原因】
进行假设检验时,我们假定小概率事件在一次抽样过程中是不会发生的。但实际上,小概率事件(样本中存在极端数据)仍有发生的可能。因此,当小概率事件发生的可能性增大时,就会出现I类错误。
假设检验中,小概率事件发生的概率之和,我们称之为显著性水平(α)。**因此I类错误发生的概率,就是我们所选择的显著性水平取值。**当显著性水平取值增大,就容易发生I类错误。
例如:根据实验数据求得P-value = 0.06,在常用置信度为95%,即显著性水平 α = 0.05时,P-value > 0.05,接受H0。 但当取 α = 0.07时,置信度 1- α = 93%,P-value<0.07,拒绝H0。
根据正态分布概率取值图也可理解为,置信区间缩小,导致原本符合正常情况的数据被刨除在外。

II类错误(β错误/取伪错误)

原假设H0错误,但检验结论满足显著性水平要求,进而接受原假设H0。犯II类错误的概率记为β。
【原因】
II类错误的概率其实也可以理解为对于显著性水平取值的调整。通常情况下,我们以5%作为小概率事件发生的临界值,当我们认为小概率事件发生的概率(β)进一步缩小时,就可能导致置信区间扩大,原本不符合正常情况的数据涵盖在内。
例如:根据实验数据求得P-value = 0.04,在常用置信度为95%,即显著性水平 α = 0.05时,P-value < 0.05,拒绝H0。 但当我们假设小概率事件可能性进一步缩小,即 β = 0.03时,置信度 1- β = 97%,P-value > 0.03,接受H0。

如何避免假设检验的两类错误

  1. 在样本容量不变的前提下,无法做到同时减少两种错误。此时,两种错误发生的概率呈负相关
  2. 在样本容量不变的前提下,通常先保证I类错误概率α的取值较低的情况下,尽量减小II类错误概率β
  3. 通过增加样本容量,同时减少两类错误

在样本容量不变的前提下,如何抉择优先减小哪类错误?

【例1】法律审判是否有罪:H0:罪犯无罪; H1:罪犯有罪
I类错误:罪犯无罪,但判定为有罪
II类错误:罪犯有罪,但判定为无罪
-> 由于社会人口基数足够大,而犯罪毕竟是少部分的人,因此可以优先考虑避免I类错误,即避免冤假错案。
【例2】大流行传染性疾病:H0:不是病毒携带者 H1:是病毒携带者
I类错误:不是病毒携带者,但判定为携带者
II类错误:是病毒携带者,但判定为不是携带者
-> 当病毒携带者被判定为非携带者,进而没有进行有效隔离,就会传染更多的无辜群众,导致疾病进一步扩散。对于社会的影响远大于将非携带者认定为携带者从而进行有效隔离和救治。因此在这个情况下,优先考虑避免II类错误。

注:如何选择优先减小哪类错误实例参考Andy_shenzl 尤其是传染性疾病情况下的例子,今天学习到更有感触。
假设检验的两类错误

相关文章: