【问题标题】:Relationship between dask distributed pods, workers, CPU and RAM in config.yamlconfig.yaml 中 dask 分布式 pod、worker、CPU 和 RAM 之间的关系
【发布时间】:2019-07-22 16:05:18
【问题描述】:

使用 Helm 设置 dask 集群时,config.yaml 文件中有一组变量用于自定义工作人员的数量,我希望对术语有所帮助。例如,如果我设置一个 Kubernetes 集群,其中包含 16 个虚拟机、8 个内核/机器和 32GB/虚拟机,我最终会得到 128 个 vCPU 和 512GB 内存。如果我通过“helm ... update -f config.yaml”

worker:
  name: worker
  allowed-failures: 2
  replicas: 48
  resources:
    limits: 
      cpu: 2
      memory: 8G
    requests:
      cpu: 2
      memory: 8G

似乎我应该能够创建 64 个工作人员,每个工作人员有 2 个 CPU,并使用我所有的 512 GB RAM。 (减去专用于调度程序的资源)。然而,在实践中,分布式客户端最多有 40 个工作器、80 个内核和 320 GB 的总 RAM。

是否有关于设置 pod 以最大限度地利用集群的最佳实践?我从post 知道,就每个工作人员使用线程和进程而言,工作量是第一位的,但工作人员的数量是否应该 == 核心数量 == pod 数量?如果是,上面的.yaml文件中cpu关键字的作用是什么?

【问题讨论】:

    标签: dask dask-distributed


    【解决方案1】:

    我的第一个猜测是您的节点上正在运行其他东西,因此 Kubernetes 不愿意提供您所要求的一切。比如Kubernetes本身就占用了一些内存。

    【讨论】:

      猜你喜欢
      • 2021-10-02
      • 1970-01-01
      • 2021-04-20
      • 2023-01-05
      • 2023-03-16
      • 1970-01-01
      • 2019-05-23
      • 2020-03-16
      • 2021-05-23
      相关资源
      最近更新 更多