【发布时间】:2021-11-21 23:04:54
【问题描述】:
在DGX-1系统(8xV100)中,NVlink有两种类型:NVlink-V1和NVlink-V2,
我们有什么方法可以明确指定我们用于 p2p 和集体通信的 NVlink 类型?
【问题讨论】:
在DGX-1系统(8xV100)中,NVlink有两种类型:NVlink-V1和NVlink-V2,
我们有什么方法可以明确指定我们用于 p2p 和集体通信的 NVlink 类型?
【问题讨论】:
在一台机器上没有两种类型的 NVLINK。这里的区别在于绑定在一起的链接数量。
NV1 标识表明那些 GPU(在该连接路径上)具有单链路连接。
NV2 名称表明这些 GPU 具有双链路(即带宽的两倍)连接。两个链接“绑定”在一起。
不能二选一,这是不可控的,是硬件设计的功能。
如果 NCCL 选择在两个具有 NV2 连接性的 GPU 之间传输数据,它将以两倍的速度传输。
这里没有什么可以设置或控制的。
使用 NCCL 时的一般原则是您指定要执行的集合,NCCL 将使用现有结构尽快完成该集合。
【讨论】: