第一、qcut将等分位数方法,将数据集分成指定的n个部分;比如说10,那么就会将原始数据集分成10个数量相同的部分,并有对应的区间;每个区间为一个类;
代码如下所示:
data=pd.DataFrame(np.random.randn(50,5),columns=list('abcde'))
data['qcut']=pd.qcut(data.a,10)
print(pd.qcut(data.a,10))
print(data.head())
输出如图所示:
data['qcut']=pd.qcut(data.a,10)这句代码返回的是每个a值所属的类别,所以长度等同于a的个数;
再看附加:
print(data.groupby(['qcut'])[['b']].agg(['mean','median','count']))
输出结果: