【问题标题】:How to plot a PMF of a sample?如何绘制样本的 PMF?
【发布时间】:2014-10-06 01:27:04
【问题描述】:

是否有任何函数或库可以帮助我绘制样本的概率质量函数,就像绘制样本的概率密度函数一样?

例如,使用 pandas,绘制 PDF 就像调用一样简单:

sample.plot(kind="density")

如果没有简单的方法,我该如何计算 PMF 以便我可以使用 matplotlib 进行绘图?

【问题讨论】:

标签: python matplotlib plot pandas scipy


【解决方案1】:

如果ts是一个系列,您可以通过以下方式获取样本的PMF:

>>> pmf = ts.value_counts().sort_index() / len(ts)

并通过以下方式绘制它:

>>> pmf.plot(kind='bar')

使用np.unique可以完成仅numpy的解决方案:

>>> xs = np.random.randint(0, 10, 100)
>>> xs
array([5, 2, 2, 1, 2, 8, 6, 7, 5, 3, 2, 6, 4, 9, 7, 6, 4, 7, 6, 8, 7, 0, 6,
       2, 9, 8, 7, 7, 2, 6, 2, 8, 0, 2, 5, 1, 3, 6, 7, 7, 2, 2, 0, 3, 8, 7,
       4, 0, 5, 7, 5, 4, 4, 9, 5, 1, 6, 6, 0, 9, 4, 2, 0, 8, 7, 5, 1, 1, 2,
       8, 3, 8, 9, 0, 0, 6, 8, 7, 2, 6, 7, 9, 7, 8, 8, 3, 3, 7, 8, 2, 2, 4,
       4, 5, 3, 4, 1, 5, 5, 1])

>>> val, cnt = np.unique(xs, return_counts=True)
>>> pmf = cnt / len(xs)

>>> # values along with probability mass function
>>> np.column_stack((val, pmf))
array([[ 0.  ,  0.08],
       [ 1.  ,  0.07],
       [ 2.  ,  0.15],
       [ 3.  ,  0.07],
       [ 4.  ,  0.09],
       [ 5.  ,  0.1 ],
       [ 6.  ,  0.11],
       [ 7.  ,  0.15],
       [ 8.  ,  0.12],
       [ 9.  ,  0.06]])

【讨论】:

  • 解决方案适用于pandas,您能否建议numpyseaborn 作为没有标题的数据。
  • @SitzBlogz 添加了一个仅 numpy 的解决方案,但我没有使用 seaborn
  • 感谢您的解决方案,但我得到了一些可疑的输出。我应该将其作为不同的问题提出并在此处放置链接吗?
【解决方案2】:

给定一个 Pandas 数据框,df,你可以使用 seaborn 编写

import seaborn as sns

probabilities = df['SomeColumn'].value_counts(normalize=True)    
sns.barplot(probabilities.index, probabilities.values)

【讨论】:

    【解决方案3】:

    您可以使用np.histogram 使用density=true 计算 PMF 前提是使用单位宽度的 bin(否则您将在最可能不是你需要的)。

    >>> xs = np.array(
              [5, 2, 2, 1, 2, 8, 6, 7, 5, 3, 2, 6, 4, 9, 7, 6, 4, 7, 6, 8, 7, 0, 6,
               2, 9, 8, 7, 7, 2, 6, 2, 8, 0, 2, 5, 1, 3, 6, 7, 7, 2, 2, 0, 3, 8, 7,
               4, 0, 5, 7, 5, 4, 4, 9, 5, 1, 6, 6, 0, 9, 4, 2, 0, 8, 7, 5, 1, 1, 2,
               8, 3, 8, 9, 0, 0, 6, 8, 7, 2, 6, 7, 9, 7, 8, 8, 3, 3, 7, 8, 2, 2, 4,
               4, 5, 3, 4, 1, 5, 5, 1])
    
    >>> pmf, bins = np.histogram(xs, bins=range(0,11), density=True)
    >>> np.column_stack((bins[:-1], pmf))
    array([[ 0.  ,  0.08],
           [ 1.  ,  0.07],
           [ 2.  ,  0.15],
           [ 3.  ,  0.07],
           [ 4.  ,  0.09],
           [ 5.  ,  0.1 ],
           [ 6.  ,  0.11],
           [ 7.  ,  0.15],
           [ 8.  ,  0.12],
           [ 9.  ,  0.06]])
    

    【讨论】:

      【解决方案4】:
      import matplotlib.pyplot as plt
      import seaborn as sns
      samp = [5, 2, 2, 1, 2, 8, 6, 7, 5, 3, 2, 6, 4, 9, 7, 6, 4, 7, 6, 8, 7, 0, 6,
             2, 9, 8, 7, 7, 2, 6, 2, 8, 0, 2, 5, 1, 3, 6, 7, 7, 2, 2, 0, 3, 8, 7,
             4, 0, 5, 7, 5, 4, 4, 9, 5, 1, 6, 6, 0, 9, 4, 2, 0, 8, 7, 5, 1, 1, 2,
             8, 3, 8, 9, 0, 0, 6, 8, 7, 2, 6, 7, 9, 7, 8, 8, 3, 3, 7, 8, 2, 2, 4,
             4, 5, 3, 4, 1, 5, 5, 1]
      
      plt.ylabel('PMF')
      sns.histplot(samp, stat='probability', bins=20);
      

      【讨论】:

      • 什么是plt?和sns?你能用你的导入改进你的代码吗?谢谢!
      • 两者都是常用的习惯用法,包括在他们自己的文档中。
      猜你喜欢
      • 2020-12-17
      • 1970-01-01
      • 1970-01-01
      • 2018-11-09
      • 1970-01-01
      • 1970-01-01
      • 2019-05-19
      • 2017-09-12
      • 2017-08-18
      相关资源
      最近更新 更多