【发布时间】:2020-02-04 20:55:46
【问题描述】:
我一直在阅读 some documentation 和 example code,最终目标是为分布式计算(运行 PyTorch)编写脚本,但这些概念让我感到困惑。
假设我们有一个带有 4 个 GPU 的节点,并且我们希望在这 4 个 GPU 上运行我们的脚本(即每个 GPU 一个进程)。在这种情况下,排名世界大小和排名是多少?我经常找到关于世界大小的解释:作业中涉及的进程总数,所以我假设在我们的示例中是四个,但是排名呢?
为了进一步解释,另一个具有多个节点和多个 GPU 的示例也很有用。
【问题讨论】:
标签: python python-3.x pytorch distributed-computing