【发布时间】:2016-04-28 14:22:47
【问题描述】:
我正在努力了解如何在 Python 中对数据进行分箱。到目前为止,我已经弄清楚了如何使用以下方法获得边缘:
edges = pylab.hist(data, bins=10)[1]
我不确定这是否是最理想的方法,但它确实有效!给了我制作 10 个垃圾箱所需的 11 个数字的列表。问题是我不知道如何将数据分类到垃圾箱中。我尝试使用:
digitized = np.digitize(data, edges)
但这只是给了我一个错误,“ValueError: zero-size array to reduction operation minimum which has no identity”。在使用 pandas value_counts 之前,我需要以某种方式制作垃圾箱(我也已经把那部分放下了)。
任何帮助都将非常感激!
【问题讨论】:
-
Python identify in which interval the numbers are 的可能重复本问题的答案向您展示了如何做到这一点。
-
我已经试过了,我应该把它放在这里,这样它就不会立即被击落。对不起。
-
包含一个数据的玩具示例会很有用
-
实际上该行确实有效。我在问之前回答了自己的问题,但没有意识到。另一位代码导致错误。我觉得很笨:(
标签: python data-analysis quantile binning