【问题标题】:Normalising Histograms Matplotlib标准化直方图 Matplotlib
【发布时间】:2016-02-18 13:16:45
【问题描述】:

您好,我正在绘制三个不同的直方图,它们具有不同的总频率,但我想对它们进行归一化以使频率相同。

从图片中可以看出,这三个集合具有不同的总频率,但我想对它们进行归一化,使它们具有相同的总频率,但我想保留 x- 的每个值处的频率比例轴。

这是我用来绘制直方图的代码

setA = [22.972972972972972, 0.0, 0.0, 27.5, 25.0, 18.64406779661017, 8.88888888888889, 20.512820512820515, 11.11111111111111, 15.151515151515152, 17.741935483870968, 13.333333333333334, 16.923076923076923, 12.820512820512821, 27.77777777777778, 4.0, 0.0, 15.625, 14.814814814814815, 7.142857142857143, 15.384615384615385, 14.545454545454545, 38.095238095238095, 17.647058823529413, 21.951219512195124, 21.428571428571427, 32.432432432432435, 10.526315789473685, 36.8421052631579, 13.114754098360656, 17.91044776119403, 12.64367816091954, 16.0, 22.727272727272727, 18.181818181818183, 9.523809523809524, 17.105263157894736, 11.904761904761905, 20.58823529411765, 10.714285714285714, 15.686274509803921, 27.5, 16.129032258064516, 21.333333333333332, 40.90909090909091, 11.904761904761905, 13.157894736842104]
setB = [1.492537313432836, 3.5714285714285716, 17.94871794871795, 11.363636363636363, 13.513513513513514, 14.285714285714286, 15.686274509803921, 17.94871794871795, 9.090909090909092, 41.07142857142857, 10.714285714285714, 25.0, 20.0, 40.0, 13.333333333333334, 13.793103448275861, 3.5714285714285716, 17.073170731707318, 25.675675675675677, 15.625, 17.46031746031746, 8.333333333333334, 18.64406779661017, 14.285714285714286, 0.0, 6.0606060606060606, 6.976744186046512, 18.181818181818183, 26.785714285714285, 22.80701754385965, 6.666666666666667, 12.5]
setC = [13.846153846153847, 23.076923076923077, 25.0, 10.714285714285714, 16.666666666666668, 9.75609756097561, 10.0, 10.0, 17.857142857142858, 20.0, 9.75609756097561, 26.470588235294116, 12.5, 13.333333333333334, 4.3478260869565215, 5.882352941176471, 14.545454545454545, 13.333333333333334, 8.571428571428571, 11.764705882352942, 0.0]

plt.figure('sets')
n, bins, patches = plt.hist(setA, 20, alpha=0.40 , label = 'setA')  
n, bins, patches = plt.hist(setB, 20, alpha=0.40 , label = 'setB')
n, bins, patches = plt.hist(setC, 20, alpha=0.40 , label = 'setC')    
plt.xlabel('Set')
plt.ylabel('Frequency')
plt.title('Different Sets that need to be normalised')

plt.legend()
plt.grid(True)
plt.show()

另外,因为我的目标是能够比较三组的分布,所以我可以使用更好的直方图视觉效果来更好地以图形方式比较它们。

【问题讨论】:

  • 你尝试了什么? Tour 说“不要问你还没有试图找到答案的问题(展示你的工作!)”
  • 你考虑过normed = True吗?

标签: python matplotlib histogram


【解决方案1】:

您可以使用normed=True 选项对直方图进行标准化。这意味着所有直方图的面积加起来为 1。

您还可以通过对所有三个直方图使用相同的固定箱(例如,使用histbins 选项:bins = np.arange(0,48,2))使图看起来更整洁。

试试这个:

import numpy as np

...

mybins = np.arange(0,48,2)

n, bins, patches = plt.hist(setA, bins=mybins, alpha=0.40 , label = 'setA', normed=True)  
n, bins, patches = plt.hist(setB, bins=mybins, alpha=0.40 , label = 'setB', normed=True)
n, bins, patches = plt.hist(setC, bins=mybins, alpha=0.40 , label = 'setC', normed=True)   


另一个选项是在一次调用 plt.hist 中绘制所有三个直方图,在这种情况下,您可以使用 stacked=True 选项,它可以进一步清理您的绘图。

注意:此方法对所有三个直方图进行归一化,因此总积分为 1。它不会使所有三个直方图相加为相同的值。

n, bins, patches = plt.hist([setA,setB,setC], bins=mybins, 
                            label = ['setA','setB','setC'], 
                            normed=True, stacked=True)


或者,最后,如果堆积直方图不符合您的口味,您可以将条形图彼此相邻绘制,方法是在一次调用中再次绘制所有三个直方图,但从上面的行中删除 stacked=True 选项:

n, bins, patches = plt.hist([setA,setB,setC], bins=mybins, 
                            label = ['setA','setB','setC'], 
                            normed=True)


正如在 cmets 中所讨论的,当使用 stacked=True 时,normed 选项仅意味着所有三个直方图的总和将等于 1,因此它们可能不会以与其他方法相同的方式进行归一化。

为了解决这个问题,我们可以使用np.histogram,并使用plt.bar 绘制结果。

例如,使用与上面相同的数据集:

mybins = np.arange(0,48,2)

nA,binsA = np.histogram(setA,bins=mybins,normed=True)
nB,binsB = np.histogram(setB,bins=mybins,normed=True)
nC,binsC = np.histogram(setC,bins=mybins,normed=True)

# Since the sum of each of these will be 1., lets divide by 3.,
# so the sum of the stacked histogram will be 1.
nA/=3.
nB/=3.
nC/=3.

# Use bottom= to set where the bars should begin
plt.bar(binsA[:-1],nA,width=2,color='b',label='setA')
plt.bar(binsB[:-1],nB,width=2,color='g',label='setB',bottom=nA)
plt.bar(binsC[:-1],nC,width=2,color='r',label='setC',bottom=nA+nB)

【讨论】:

  • 嗨,汤姆,我注意到每组的面积都不相等。例如,在倒数第二个堆叠直方图中,很明显 SetC 小于其他两组。如何使每个集合的面积相等?
  • 嗯。如果您使用stackednormed 似乎是所有直方图的总和加为 1。对于其他两种情况,我展示了所有三个直方图加为 1。如果您希望它们堆叠和标准化,您可能需要在绘图之前对数据做一些进一步的处理
  • 使用 np.histogramplt.bar 查看我的编辑以了解解决此问题的方法
猜你喜欢
  • 1970-01-01
  • 2016-01-13
  • 2020-12-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-08-19
  • 1970-01-01
  • 2014-12-22
相关资源
最近更新 更多