【发布时间】:2017-06-06 23:38:12
【问题描述】:
我正在构建一个非常大的 DAG 以提交给分布式调度程序,其中节点对本身可能非常大的数据帧进行操作。一种模式是我有大约 50-60 个函数来加载数据并构建每个数百 MB 的 pandas 数据帧(并在逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个 dask 数据帧中,同时最大限度地减少数据移动。我像这样链接任务:
dfs = [dask.delayed(load_pandas)(i) for i in disjoint_set_of_dfs]
dfs = [dask.delayed(pandas_to_dask)(df) for df in dfs]
return dask.delayed(concat_all)(dfs)
在哪里
def pandas_to_dask(df):
return dask.dataframe.from_pandas(df).to_delayed()
我已经尝试了各种concat_all 实现,但这似乎是合理的:
def concat_all(dfs):
dfs = [dask.dataframe.from_delayed(df) for df in dfs]
return dask.dataframe.multi.concat(dfs, axis='index', join='inner')
所有 pandas 数据帧的索引都是不相交的,并且是有序的/单调的。
但是,尽管每个人的内存预算实际上相当大而且我不希望它是四处移动数据。我有理由确定,在使用 dask 数据框的图形节点中调用 compute() 之前,我总是切分到合理的数据子集。
到目前为止,我正在玩--memory-limit,但没有成功。我至少正确地解决了这个问题吗?有没有我遗漏的注意事项?
【问题讨论】:
标签: python dask dask-delayed