【发布时间】:2022-01-20 04:38:25
【问题描述】:
我正在研究如何在 PyTorch 的不同节点上与多个 GPU 进行点对点通信。
从版本 1.10.0 开始,PyTorch 的 documentation 页面为带有 MPI 后端的 GPU 显示 send 和 recv 的问号。这是什么意思?如果有人成功设置了 PyTorch,以便 torch.distributed 允许在多个 GPU 上进行点对点通信,请告诉我您是如何设置的。具体来说,您使用的是哪个 MPI? pyTorch 和 Cuda 的版本呢?
【问题讨论】:
标签: pytorch distributed