【问题标题】:Configuration Dask Distributed分布式配置文件
【发布时间】:2020-01-18 00:54:23
【问题描述】:

我正在为我们的数据科学家建立一个工作环境。目前我们有一个运行 Jupyterhub 的单节点,安装了 Anaconda 和 Dask。 (2 个插槽,6 个内核,每个内核 2 个线程,140 GB 内存)。当用户创建 LocalCluster 时,当前默认设置是占用所有可用的内核和内存(据我所知)。明确完成后这没问题,但我希望标准 LocalCluster 使用少于此值。因为几乎我们所做的一切都是

现在,在查看配置时,我看不到处理 n_workers、n_threads_per_worker、n_cores 等的配置。对于内存,在 dask.config.get('distributed.worker') 我看到两个与内存相关的选项(memorymemory-limit)都指定了此处列出的行为:https://distributed.dask.org/en/latest/worker.html

我还查看了 jupyterlab dask 扩展,它可以让我完成所有这些工作。但是,我不能强迫人们使用 jupyterlab。

TL;DR 我希望在创建集群时能够设置以下标准配置:

  1. n_workers
  2. processes = False(我认为?)
  3. threads_per_worker
  4. memory_limit 每个工作人员或集群。我知道这只能是一个软限制。

任何配置建议也非常欢迎。

【问题讨论】:

    标签: dask dask-distributed


    【解决方案1】:

    截至 2019 年 9 月 20 日,此功能尚未实施。我建议在 https://github.com/dask/distributed/issues/new 提出功能请求,甚至是拉取请求。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-11-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-05-27
      • 1970-01-01
      • 2011-04-06
      • 1970-01-01
      相关资源
      最近更新 更多