【发布时间】:2019-07-22 16:05:18
【问题描述】:
使用 Helm 设置 dask 集群时,config.yaml 文件中有一组变量用于自定义工作人员的数量,我希望对术语有所帮助。例如,如果我设置一个 Kubernetes 集群,其中包含 16 个虚拟机、8 个内核/机器和 32GB/虚拟机,我最终会得到 128 个 vCPU 和 512GB 内存。如果我通过“helm ... update -f config.yaml”
worker:
name: worker
allowed-failures: 2
replicas: 48
resources:
limits:
cpu: 2
memory: 8G
requests:
cpu: 2
memory: 8G
似乎我应该能够创建 64 个工作人员,每个工作人员有 2 个 CPU,并使用我所有的 512 GB RAM。 (减去专用于调度程序的资源)。然而,在实践中,分布式客户端最多有 40 个工作器、80 个内核和 320 GB 的总 RAM。
是否有关于设置 pod 以最大限度地利用集群的最佳实践?我从post 知道,就每个工作人员使用线程和进程而言,工作量是第一位的,但工作人员的数量是否应该 == 核心数量 == pod 数量?如果是,上面的.yaml文件中cpu关键字的作用是什么?
【问题讨论】:
标签: dask dask-distributed