类似于 Amazon Web Services Cluster GPU 实例的私有云 GPU 虚拟化答案

【问题标题】：Private cloud GPU virtualization similar to Amazon Web Services Cluster GPU instances类似于 Amazon Web Services Cluster GPU 实例的私有云 GPU 虚拟化
【发布时间】：2013-01-08 11:31:47
【问题描述】：

我正在寻找启用基于云的动态 NVIDIA GPU 虚拟化的选项，类似于 AWS 为 Cluster GPU Instances 分配 GPU 的方式。

我的项目正在建立一个内部云。一项要求是能够将 GPU 分配给虚拟机/实例以进行服务器端 CUDA 处理。

USC 似乎正在开发OpenStack enhancements 来支持这一点，但它还没有准备好。如果它在 OpenStack 中功能齐全，这正是我所寻找的。p>

NVIDIA VGX 似乎只支持将 GPU 分配给USMs，这是严格的远程桌面 GPU 虚拟化。如果我错了，并且 VGX 确实从虚拟机/实例启用服务器端 CUDA 计算，请告诉我。

【问题讨论】：

可以使用 Xen HVM hypervisor 将 GPU 分配给 VM。然而，这是一个不平凡的设置，并且很可能它的操作有许多粗糙的边缘。必须在启动 VM 之前完成分配。它实际上是 GPU 到 VM 的 1:1 映射，您不能以这种方式同时在多个 VM 之间共享单个 GPU（使用 PCI Passthrough）。
@Robert Crovella - 谢谢。我真的很想找到可以与云管理工具更无缝集成的东西，但有一个可能的选择至少是一个开始。我将不得不调查完整的 CUDA API 是否可用。
@Robert Crovella 是正确的，但如果您要使用 Xen 进行尝试，那么有几个先决条件：CPU 必须具有 Intel VT/d 或 AMD IOMMU（现在不太可能成为问题），为 VT-d/IOMMU 直通支持“启用”的 GPU（NVIDIA 似乎将其称为 Multi-OS）——这几乎意味着 M 系列 Teslas 和 Quadros，Xen 4.1（可能还有更高版本？）
可能需要一段时间，但我可能会考虑一下。截至目前，计划是测试新的 Open Stack 测试版，其中包含来自 USC 的 GPU 虚拟化蓝图。当我最初问的时候，这还没有出来。它计划在 4 月包含在一般版本中。我会报告我的发现。
如果这是 HPC 用例，您可能会考虑利用 openstack 物理层配置。

标签： amazon-web-services cuda cloud gpgpu openstack

【解决方案1】：

“基于云的动态 NVIDIA GPU 虚拟化类似于 AWS 为集群 GPU 实例分配 GPU 的方式。”

AWS 并没有真正动态地分配 GPU：每个 GPU 集群计算有 2 个固定的 GPU。所有其他服务器（包括常规集群计算）都没有任何 GPU。 IE。他们没有你可以说“GPU 与否”的 API，它固定为使用固定硬件的盒子类型。

Xen 上的 pass-thru 模式是专门为您的用例设计的：将硬件从 Host 传递到 Guest。默认情况下它不是“动态”的，但您可以编写一些代码来选择一个客人来获取主机上的每张卡。

【讨论】：

集群 GPU 实例仍然是运行在 Xen 管理程序之上的 VM，对吧？因此，当一个实例停止时，您可以将它使用的 GPU 重新分配给一个新实例，对吗？当任一 VM 处于打开状态时，您无法进行分配，但这很好——您仍在动态地将 GPU 资源分配给 VM 实例。我说的对吗？
是的，它在 Xen 下运行。但是不，您不分配它们：AWS 会。当您要求 cg1.4xlarge 时，您会在不同的机架上得到一个盒子，因为它们有 GPU，而其他盒子没有。最有可能的是，它们将 GPU 静态映射到实例，因为每个实例必须有 2 个 GPU。

【解决方案2】：

有一个名为 GPUBox 的解决方案可以虚拟化 CUDA 中的设备。它可以在 Amazon 或您自己的基础设施上使用。

引自网站（http://renegatt.com/solutions.php）：

GPUBox 软件通过分离来自底层 GPU 设备的应用程序和操作系统。它是一种解决方案，允许从相同的池，由许多用户。 (...)GPUBox 支持按需配置 GPU 设备到具有 Linux 或视窗操作系统。 GPU 设备池在用户，从而降低总功耗和空闲运行的硬件。

【讨论】：