【发布时间】:2021-05-05 20:33:37
【问题描述】:
我想了解 Dask 对象的高效内存管理过程。我已经设置了一个 Dask GPU 集群,并且能够执行跨集群运行的任务。但是,对于 dask 对象,尤其是当我运行计算函数时,在 GPU 上运行的进程会因使用越来越多的内存而迅速增长,并且很快就会出现“内存不足错误”。
我想了解在使用完 dask 对象后如何释放内存。在以下示例中,在计算功能之后,我如何释放该对象。我正在运行以下代码几次。内存在运行的进程中不断增长
import cupy as cp
import pandas as pd
import cudf
import dask_cudf
nrows = 100000000
df2 = cudf.DataFrame({'a': cp.arange(nrows), 'b': cp.arange(nrows)})
ddf2 = dask_cudf.from_cudf(df2, npartitions=5)
ddf2['c'] = ddf2['a'] + 5
ddf2
ddf2.compute()
【问题讨论】:
标签: dask dask-distributed dask-dataframe cudf