【问题标题】:What is the common topology of GPU within clusters?集群内 GPU 的常见拓扑是什么?
【发布时间】:2020-02-13 03:52:05
【问题描述】:

我是高性能计算领域的新手,正在学习 GPU 卡的Allreduce 操作。我发现称为ring-Allreduce 的高效集体操作要求GPU 卡的物理拓扑为树形拓扑。但是,我检查自己服务器的拓扑如下。

GPU 卡似乎由多个本地 PCIe 总线和 PCIe 主机桥连接。是总线拓扑的层次吗?

【问题讨论】:

    标签: networking gpu pci-e


    【解决方案1】:

    双插槽系统在每个插槽上有多个 PCIe 根端口。 PCIe 网桥连接到每个根端口,GPU 连接到网桥。

    标记为 PIX 的连接位于连接到同一网桥的 GPU 之间。

    标记为 NODE 的连接位于连接到两个不同网桥(在两个不同根端口上)的 GPU 之间。

    标有 SYS 的连接连接到不同套接字上的根端口。

    【讨论】:

    • 先谢谢你的解释。我想我知道 GPU 卡的物理布局。但是我仍然对拓扑感到困惑。是总线拓扑吗?
    • 我不确定你的意思。 PCIe 链接都是树形结构中的点对点链接,而不是共享总线。这就是为什么每个根端口都需要网桥。这有助于回答您的问题吗?
    • 我不确定你是否熟悉分布式深度学习训练。在这种情况下,我们需要从每个 gpu 卡上收集梯度信息,计算平均值然后发回。有一种著名的算法叫做 ring all-reduce,它可以基于树形拓扑实现最优带宽。就是不知道gpu卡的默认拓扑是不是树形拓扑。
    猜你喜欢
    • 2013-05-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-04-22
    • 1970-01-01
    • 2019-04-23
    相关资源
    最近更新 更多