【发布时间】:2019-02-22 16:09:15
【问题描述】:
我有一个数据集,其中包含 30k 客户在 6 个月内的页面浏览量。它还包括以下内容:
- 使用的唯一操作系统数
- 唯一浏览器用户数
- 使用的唯一 cookie 数量 所有这些数字都是在六个月内得出的。
现在我确实尝试使用以下方法进行正常测试:
from scipy.stats import normaltest
k2, p = normaltest(df)
print(p)
返回 0.0 表示数据不服从正态分布。
现在我想知道这是为什么?我认为通常随着大小的增加,我们会看到数据中的正态分布,因为数据的大小为 30k,我无法理解为什么它不是正态分布的。
我确实尝试将它们转换为 Z 分数,但仍然没有运气。我可以转换我的数据以使其具有正态分布吗?有什么方法可以做到吗?
【问题讨论】:
-
我认为你误解了central limit theorem。您无法更改数据的分布——它就是这样。如果您有一组 IID 随机变量,则总和趋于正态分布。经典的例子是掷 N 个骰子并将它们的结果相加。
-
我想建议你绘制你的数据,首先是直方图。我想你会看到你的数据有什么问题。还提供一些来自您的 df 的示例行。
-
“我认为通常随着大小的增加,我们会看到数据中的正态分布” 据我了解,这并不是中心极限定理所说的。相反,它说如果你有足够的样本,那么样本平均值的分布就会变得正常。
标签: python logic normalization transformation data-science