在 GPU 工作站上设置 Kubernetes 集群的最佳实践答案

【问题标题】：Best practice for setting up kubernetes cluster on GPU workstation在 GPU 工作站上设置 Kubernetes 集群的最佳实践
【发布时间】：2019-02-01 11:02:54
【问题描述】：

我想了解在运行 Ubuntu 18.04 LTS 的 Dell Alienware Aurora 工作站上为基于 GPU 的 tensorflow 工作负载设置 kubernetes 集群的当前最佳实践。在我将它们部署到成熟的 k8s 集群之前，这将是我的服务/容器的中转站。我不确定这种设置的正确策略是什么样的。以下是一些可能性：

带有 virtualbox 驱动程序的 Minikube，VM 中的工作节点
Minikube 与 --vm-driver=none，依赖 docker
Kubeadm 在 master 上启用了调度 pods
Kubeadm-dind（docker 中的 docker）

更新：添加了 kubeadm 选项。有人也可以在 docker 解决方案中评论 docker。服务/pod 会从 docker setup 中的 docker 无缝工作到多节点远程机器/云实例设置吗？

很想听听 kubernetes 专家或熟悉单台物理机上的 tensorflow/GPU 工作负载的人的意见。

【问题讨论】：

标签： tensorflow kubernetes

【解决方案1】：

我会选择 2 或 3 个虚拟机并使用 kubeadm。您将拥有真正的集群来玩。那里有一些 vagrant/ansible 剧本。 GPU/Tensorflow 有点新，所以玩吧 ;)

【讨论】：

谢谢，我的问题中包含了 kubeadm，希望有人能给出更完整的答案。我是一名 ML 研究人员，真的很少有时间花在 devops 上……