【问题标题】:Python Multiprocessing with PyCUDA使用 PyCUDA 进行 Python 多处理
【发布时间】:2018-05-29 14:16:09
【问题描述】:

我遇到了一个问题,我想在多个 CUDA 设备上拆分,但我怀疑我当前的系统架构阻碍了我;

我设置的是一个 GPU 类,具有在 GPU 上执行操作的函数(奇怪)。这些操作都是风格

for iteration in range(maxval):
    result[iteration]=gpuinstance.gpufunction(arguments,iteration)

我原以为 N 个设备会有 N 个 gpuinstances,但我对多处理了解得不够多,无法看到应用此功能的最简单方法,以便异步分配每个设备,而且奇怪的是我的示例很少遇到了处理后的整理结果的具体演示。

谁能给我这方面的任何指点?

更新 感谢 Kaloyan 在多处理领域的指导;如果 CUDA 不是特别的症结所在,我会将您标记为已回答。对不起。

在使用此实现之前,gpuinstance 类使用import pycuda.autoinit 启动了 CUDA 设备,但这似乎不起作用,只要每个(正确范围的)线程遇到 cuda 命令,就会抛出 invalid context 错误。然后我尝试在类的__init__ 构造函数中手动初始化...

pycuda.driver.init()
self.mydev=pycuda.driver.Device(devid) #this is passed at instantiation of class
self.ctx=self.mydev.make_context()
self.ctx.push()    

我的假设是在创建 gpuinstances 列表和线程使用它们之间保留上下文,因此每个设备都在自己的上下文中。

(我还实现了一个析构函数来处理pop/detach 清理)

问题是,只要线程尝试接触 CUDA,invalid context 异常仍然会出现。

大家有什么想法吗?感谢能走到这一步。自动为“香蕉”工作的人投票! :P

【问题讨论】:

  • gpuinstance.gpufunction(arguments,iteration) 是异步的还是会阻塞执行?

标签: python cuda parallel-processing multiprocessing pycuda


【解决方案1】:

您需要先将所有的香蕉都放在 CUDA 方面,然后考虑用 Python 完成这项工作的最佳方法 [我知道,这是无耻的卖淫行为]。

CUDA 多 GPU 模型在 4.0 之前非常简单 - 每个 GPU 都有自己的上下文,每个上下文必须由不同的主机线程建立。所以伪代码的思路是:

  1. 应用程序启动,进程使用 API 来确定可用 GPU 的数量(注意 Linux 中的计算模式等)
  2. 应用程序为每个 GPU 启动一个新的主机线程,并传递一个 GPU id。每个线程隐式/显式调用等效于 cuCtxCreate() 并传递它已分配的 GPU id
  3. 利润!

在 Python 中,这可能看起来像这样:

import threading
from pycuda import driver

class gpuThread(threading.Thread):
    def __init__(self, gpuid):
        threading.Thread.__init__(self)
        self.ctx  = driver.Device(gpuid).make_context()
        self.device = self.ctx.get_device()

    def run(self):
        print "%s has device %s, api version %s"  \
             % (self.getName(), self.device.name(), self.ctx.get_api_version())
        # Profit!

    def join(self):
        self.ctx.detach()
        threading.Thread.join(self)

driver.init()
ngpus = driver.Device.count()
for i in range(ngpus):
    t = gpuThread(i)
    t.start()
    t.join()

这假设只建立一个上下文而不事先检查设备是安全的。理想情况下,您会检查计算模式以确保尝试安全,然后在设备繁忙时使用异常处理程序。但希望这能给出基本的想法。

【讨论】:

  • @talonmies 一如既往,谢谢,但快速查询:如果我理解正确,每个线程都被“实例化”、执行并加入队列。这不会导致执行串行运行吗?我认为简单的解决方法是将t.join()s 分成一个单独的循环。
  • @Andrew Bolter:是的,我想 start 方法应该都在一个循环中调用,而 join 都在后面调用。我也想知道在那种情况下的全局解释器锁......我必须承认我为我的 python 多 GPU 使用了 mpi4py,我也有一个用于多 GPU 的 pthreads 框架,但通常只使用 C/ C++ 和 Fortran。
  • @Andrew Bolter:我刚刚在我发布的代码的修改版本中添加了一点检测,我开始怀疑为此使用 python 线程的理智。我不想打赌我此时发布的内容的正确性......
  • 我怀疑我会以 MPI 为目标来重构问题,但我觉得这应该更微不足道。此外,为了解决线程缺陷,我也一直在研究多处理。
  • 另外,我不太明白你的“pre-4.0”评论,因为我理解之前的上下文相关的多设备操作仍然支持?
【解决方案2】:

您需要的是map 内置函数的多线程实现。 Here 是一种实现方式。只需稍作修改即可满足您的特定需求,您将获得:

import threading

def cuda_map(args_list, gpu_instances):

    result = [None] * len(args_list)

    def task_wrapper(gpu_instance, task_indices):
        for i in task_indices:
            result[i] = gpu_instance.gpufunction(args_list[i])

    threads = [threading.Thread(
                    target=task_wrapper, 
                    args=(gpu_i, list(xrange(len(args_list)))[i::len(gpu_instances)])
              ) for i, gpu_i in enumerate(gpu_instances)]
    for t in threads:
        t.start()
    for t in threads:
        t.join()

    return result

它或多或少与您上面的相同,最大的不同是您不必花时间等待gpufunction 的每次完成。

【讨论】:

  • 感谢您的评论,它引导我找到解决方案,但它遇到了与设备上下文相关的 CUDA 相关问题。现在更新问题以反映这一点
猜你喜欢
  • 2016-08-23
  • 1970-01-01
  • 1970-01-01
  • 2017-10-09
  • 2020-09-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-10-17
相关资源
最近更新 更多