【发布时间】:2020-08-05 18:58:28
【问题描述】:
有一个 dask.DataFrame 消耗大约 100GB 内存::
ddf = client.persist(ddf)
len(ddf_c.index)
# 246652596 rows
## Running some other code like groupby/aggregate etc
现在我想通过.loc操作符过滤掉数据,但是运行以下之后,RAM消耗为165GB:
ddf_c = ddf_c.loc[ddf_c.is_in_valid_set_of_combis == True]
ddf_c = client.persist(ddf_c) # Now we have 165GB RAM consumptioon
如何检查阻止 Dask 真正覆盖 ddf_c dask.DataFrame 的打开/待处理/等待期货/任务/数据集?
这是信息页面的样子:
('loc-series-b0f23c725a607fed56584d9e41e57de8', 77) 227.41 MB
[... around 50 entries ...]
【问题讨论】:
标签: dask distributed-computing dask-distributed dask-dataframe