无授权,自留,侵删:P-values Explained By Data Scientist
四个部分:

  • Hypothesis Testing
  • Normal Distribution
  • What is P-value?
  • Statistical Significance

1.Hypothesis Testing

【基础概念】P-values的解释
首先了解一下hypothesis testing ,在这里, p-value 被用来决定结果的统计显著性(statistical significance)。

统计显著性基于三点:

  • Hypothesis testing
  • Normal distribution
  • P-values

Hypothesis testing 用来检验null hypothesis的有效性。alternative hypothesis是如果原假设都不成立,你会相信的假设。
换句话说,null hypothesis与使用样本检查 claim是否有效。假如 claim无效,则我们选择alternative hypothesis。
如何判断claim是否有效?
使用 p-value。

If the evidence supports the alternative hypothesis, then we’ll reject the null hypothesis and accept the alternative hypothesis. This will be explained further in the later section.

一个例子:

假设一家披萨店claim他们的送货时间平均不超过30分钟,但你认为他们超时了。因此,您进行a hypothesis test,并随机抽取一些交货时间来test the claim。

  • Null hypothesis — The mean delivery time is 30 minutes or less(不超时)
  • Alternative hypothesis — The mean delivery time is greater than 30 minutes(超时的选项)

目标

确定从我们的样本数据中找到的证据可以更好地支持哪种说法(无效或替代)。
一种通常用的测试就是 Z-test。

2.Normal Distribution

【基础概念】P-values的解释
上图表明:
68%的数据在平均值(μ)的1个标准偏差(σ)内
95%的数据在平均值(μ)的2个标准偏差(σ)内
99.7%的数据在平均值(μ)的3个标准偏差(σ)之内

由于我们使用Z检验来进行假设检验,因此我们需要计算Z分数(用于我们的检验统计量),即与数据点均值的标准偏差数。 在我们的案例中,每个数据点都是我们收集的比萨送达时间。
【基础概念】P-values的解释
查看标准正态分布曲线很有用,因为我们可以将测试结果与标准偏差为标准单位的“正态”总体进行比较。
【基础概念】P-values的解释

这就是我们需要最后一项来解决难题的地方——p值,并根据我们开始实验前设定的显著性水平(也称为α)来检查我们的结果是否具有统计显著性。

3. 什么是P-value

如果最终证据支持比萨饼店的索赔(平均交货时间为30分钟或更短),那么我们将不会拒绝 the null hypothesis。 否则,我们将拒绝the null hypothesis。
p值越低,the null hypothesis看起来就越荒谬。
此时,我们拒绝the null hypothesis并且采用alternative hypothesis取代。

P-value in pizza delivery times

现在,我们已经收集了一些采样的交付时间,我们进行了计算,发现平均交付时间延长了10分钟,p值为0.03。
这意味着在世界上披萨的运送时间为30分钟或更短的时间(null hypothesis是正确的)的情况下,由于随机噪音,我们有3%的可能性会发现平均披萨的运送时间至少要长10分钟。
p值越低,结果越有意义,因为它不太可能是由噪音引起的。
多数人对P-value有误解:

以下是我们如何使用0.03的p值来帮助我们做出合理的决定(重要):

  • 想象一下,我们生活在一个平均交货时间始终为30分钟或更短的世界中(the null hypothesis)-因为我们相信披萨店(我们最初的信念)!
  • 在分析了收集的样本交付时间之后,p值0.03低于显着性水平(significance level)0.05(假设我们在实验之前进行了设置),并且可以说结果具有统计学意义。
  • 因为我们一直相信的披萨店,它可以履行其承诺提供披萨在30分钟或更短的时间内,我们现在需要认为如果这个信念仍然是有意义的,因为结果告诉我们,披萨店未能兑现其承诺,结果具有统计学意义。

——有点事情——未完待续

相关文章:

  • 2022-12-23
  • 2021-12-21
  • 2021-10-05
  • 2021-12-01
  • 2021-05-24
猜你喜欢
  • 2021-09-20
  • 2022-01-19
  • 2021-08-10
  • 2022-12-23
  • 2021-05-31
  • 2021-10-24
相关资源
相似解决方案