【发布时间】:2020-04-30 19:39:19
【问题描述】:
我一直在使用 Dask 处理大型数据帧并执行连接/过滤器等操作。最终结果是一个我知道有 8 行的数据框。但是,如果我的 dask 数据框是f,我在其中检查f 我得到npartitions=81 和Dask Name: assign, 10633 tasks。这是为什么?写入 .h5 文件花了将近 5 个小时,我才发现结果中只有 8 行。有什么办法可以加快速度吗?
分区数为 81,看起来太高了。我把它降低到 5,仍然需要 4 个小时。
【问题讨论】:
标签: python pandas dataframe dask