【发布时间】:2019-10-17 04:40:37
【问题描述】:
我正在尝试使用dask中的describe() and unstack()函数来获取数据的汇总统计。
但是,我收到如下所示的错误
import dask.dataframe as dd
df = dd.read_csv('Measurement_table.csv',assume_missing=True)
df.describe().compute() #this works but when I try to use `unstack`, i get an error
实际上,我正在尝试在 dask 的帮助下使下面的 python pandas 代码更快地工作
df.groupby(['person_id','measurement_concept_id','visit_occurrence_id'])['value_as_number']
.describe()
.unstack()
.swaplevel(0,1,axis=1)
.reindex(df['readings'].unique(), axis=1, level=0)
我尝试将compute() 添加到每个输出阶段,如下所示
df1 = df.groupby(['person_id','measurement_concept_id','visit_occurrence_id'])['value_as_number'].describe().unstack().swaplevel(0,1,axis=1).reindex(df['readings'].unique(), axis=1, level=0).compute()
我收到以下错误,但 same works well in pandas
谁能帮我解决这个问题?
【问题讨论】:
标签: python python-3.x dask dask-distributed dask-delayed