【发布时间】:2020-01-18 00:54:23
【问题描述】:
我正在为我们的数据科学家建立一个工作环境。目前我们有一个运行 Jupyterhub 的单节点,安装了 Anaconda 和 Dask。 (2 个插槽,6 个内核,每个内核 2 个线程,140 GB 内存)。当用户创建 LocalCluster 时,当前默认设置是占用所有可用的内核和内存(据我所知)。明确完成后这没问题,但我希望标准 LocalCluster 使用少于此值。因为几乎我们所做的一切都是
现在,在查看配置时,我看不到处理 n_workers、n_threads_per_worker、n_cores 等的配置。对于内存,在 dask.config.get('distributed.worker') 我看到两个与内存相关的选项(memory 和 memory-limit)都指定了此处列出的行为:https://distributed.dask.org/en/latest/worker.html。
我还查看了 jupyterlab dask 扩展,它可以让我完成所有这些工作。但是,我不能强迫人们使用 jupyterlab。
TL;DR 我希望在创建集群时能够设置以下标准配置:
- n_workers
- processes = False(我认为?)
- threads_per_worker
- memory_limit 每个工作人员或集群。我知道这只能是一个软限制。
任何配置建议也非常欢迎。
【问题讨论】:
标签: dask dask-distributed