【问题标题】:Dask Distributed Local DirectoryDask 分布式本地目录
【发布时间】:2019-05-18 02:35:23
【问题描述】:

我想将 所有 dask 临时数据定向到我的高速大磁盘 /mnt/1。我正在像这样运行调度程序:

dask-scheduler --local-directory /mnt/1

和工人:

dask-worker 127.0.0.1:8786 --memory-limit 16GB --nthreads 1 --nprocs 6 --local-directory /mnt/1/

我的导入如下所示:

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')

然而,我仍然看到一个 partd 目录被创建并填充了我的 /tmp 目录中的东西,这不在我的快速和大磁盘上。

我的问题是:我如何告诉分布式 dask 将绝对所有临时数据发送到/mnt/1,而不是将任何东西放入/tmp

【问题讨论】:

标签: python dask dask-distributed


【解决方案1】:

这似乎有效,请注意最后一个新行。命令行标志实际上并没有按照他们建议的那样做,这有点烦人。

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')
dask.config.set({'temporary_directory': '/mnt/1'})

【讨论】:

  • 您也可以将其设置到您的主文件夹dask configuration。但是,是的,命令行选项会很好。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-03-16
  • 1970-01-01
  • 2016-11-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多