【发布时间】:2021-09-11 13:50:10
【问题描述】:
我不明白我想在 Dask 中做的事情是否可行...
目前,我有一长串繁重的文件。 我正在使用多处理库来处理列表的每个条目。我的函数打开并输入,对其进行操作,将结果以二进制文件的形式保存到磁盘,然后返回 None。一切正常。我这样做主要是为了减少 RAM 的使用。
我想在 Dask 中做“同样的事情”,但我不知道如何并行保存二进制数据。在我看来,它应该是这样的:
for element in list:
new_value = func(element)
new_value.tofile('filename.binary')
一次只能加载N个元素,其中N是worker的数量,每个元素在每个循环结束时都会被使用和遗忘。
有可能吗?
非常感谢您的任何建议!
【问题讨论】:
标签: python-3.x dask binaryfiles dask-delayed