【发布时间】:2022-01-04 19:07:47
【问题描述】:
我的数据框如下所示:
# initialize list of lists
data = [['tom', 10], ['nick', 15], ['juli', 14],['tom', 10], ['juli', 15] ]
# Create the pandas DataFrame
df = pd.DataFrame(data, columns = ['Name', 'Age'])
Name Age
0 tom 10
1 nick 15
2 juli 14
3 tom 10
4 juli 15
我想按“姓名”分组,计算“年龄”和“年龄”的唯一计数。
使用pandas我得到了结果:
Age
count nunique
Name
juli 2 2
nick 1 1
tom 2 1
熊猫代码:
types = ['count', 'nunique']
df.groupby('Name').agg({'Age': types})
我如何在 Dask 中实现这一点?
在 dask 中,我可以做 count 或 nunique...
ddf = daskdf.from_pandas(df, npartitions=4)
ddf.groupby('Name').Age.count().to_frame().compute()
Age
Name
nick 1
tom 2
juli 2
【问题讨论】:
标签: python pandas dask dask-distributed dask-dataframe