【发布时间】:2018-04-07 22:55:42
【问题描述】:
我想了解以下代码中的不同行为。
这是使用 dask/distributed/ubuntu 16.04 全新 conda 安装
us=dd.read_parquet("/home/.......",["date","num_25","num_100","num_unq"]).persist()
g=us.groupby("us.date.dt.week)
x=g["num_25","num_100","num_unq"].mean() # Works !
x=client.persist(x) #
x=g["num_25","num_100","num_unq"].var() # NOT WORKING
x=client.persist(x) #
x=g["num_25","num_100","num_unq"].std() # NOT WORKING
x=client.persist(x) #
x=g.num_100.var() # Works
x=client.persist(x)
我可以用平均值/最小值/最大值聚合上例中的列组。
但是,例如std/var 我需要分解并一次计算一列。
在它不起作用的情况下,堆栈会报告一个键错误 ("num_25","num_100","num_unq")
【问题讨论】:
标签: python distributed dask