【发布时间】:2014-04-06 09:51:55
【问题描述】:
我有一些从雷达卫星图像中采样的数据,并想对其进行一些统计测试。在此之前,我想进行正态性检验,以便确定我的数据是正态分布的。我的数据似乎是正态分布的,但是当我执行测试时,我得到的 Pvalue 为 0,这表明我的数据不是正态分布的。
我已经附上了我的代码以及输出和分布的直方图(我对 python 比较陌生,所以如果我的代码在任何方面都很笨拙,我深表歉意)。如果我做错了什么,谁能告诉我 - 从我的直方图中我很难相信我的数据不是正态分布的?
values = 'inputfile.h5'
f = h5py.File(values,'r')
dset = f['/DATA/DATA']
array = dset[...,0]
print('normality =', scipy.stats.normaltest(array))
max = np.amax(array)
min = np.amin(array)
histo = np.histogram(array, bins=100, range=(min, max))
freqs = histo[0]
rangebins = (max - min)
numberbins = (len(histo[1])-1)
interval = (rangebins/numberbins)
newbins = np.arange((min), (max), interval)
histogram = bar(newbins, freqs, width=0.2, color='gray')
plt.show()
这会打印:(41099.095955202931, 0.0)。第一个元素是卡方值,第二个元素是 pvalue。
我已经制作了我所附数据的图表。我认为可能是因为我处理负值导致了问题,所以我将值标准化,但问题仍然存在。
【问题讨论】:
-
This question 解释了为什么您会得到如此小的 p 值。从本质上讲,正态性检验几乎总是拒绝非常大样本量的空值(例如,在您的样本中,您可以看到左侧只有一点点偏斜,在您巨大的样本量下,这已经绰绰有余了)
-
@unutbu:这不是真的:为了证明,
normaltest(np.random.normal(loc=100, scale=10, size=1000))仍然返回统一的 p 值,即使平均值为 100,标准差为 10。 -
@DavidRobinson:哦!谢谢指正。
-
这有点晚了,但对于未来的读者:
min和max是 python 中的关键字,所以我建议不要将它们用作变量。
标签: python statistics scipy normal-distribution