集群内 GPU 的常见拓扑结构是什么?
What is the common topology of GPU within clusters?
我是高性能计算领域的新手,正在学习GPU卡的Allreduce
操作。我发现称为 ring-Allreduce
的高效集体操作要求 GPU 卡的物理拓扑结构为树形拓扑结构。但是,我检查自己服务器的拓扑如下
GPU 卡似乎是通过几个本地 PCIe 总线和 PCIe 主桥连接的。是总线拓扑的层级吗?
双插槽系统的每个插槽上都有多个 PCIe 根端口。一个 PCIe 桥连接到每个根端口,GPU 连接到桥上。
标记为 PIX 的连接位于连接到同一网桥的 GPU 之间。
标记为 NODE 的连接位于连接到两个不同网桥(在两个不同根端口上)的 GPU 之间。
标有 SYS 的连接连接到不同套接字上的根端口。
我是高性能计算领域的新手,正在学习GPU卡的Allreduce
操作。我发现称为 ring-Allreduce
的高效集体操作要求 GPU 卡的物理拓扑结构为树形拓扑结构。但是,我检查自己服务器的拓扑如下
GPU 卡似乎是通过几个本地 PCIe 总线和 PCIe 主桥连接的。是总线拓扑的层级吗?
双插槽系统的每个插槽上都有多个 PCIe 根端口。一个 PCIe 桥连接到每个根端口,GPU 连接到桥上。
标记为 PIX 的连接位于连接到同一网桥的 GPU 之间。
标记为 NODE 的连接位于连接到两个不同网桥(在两个不同根端口上)的 GPU 之间。
标有 SYS 的连接连接到不同套接字上的根端口。