InfiniBand 说明

InfiniBand explained

谁能解释一下什么是 InfiniBand?与以太网相比的主要区别是什么,这些差异如何使其比以太网更快?

在来自 mellanox 的官方 description 中写道

Introduce InfiniBand, a switch-based serial I/O interconnect architecture operating at...

Infiniband 是基于交换机的 互连是什么意思?我找到了这个 description,但它没有解释如果多个输入要写入单个输出会发生什么,如何解决冲突?

据说Infiniband还有端到端的流量控制。这是否意味着没有(需要)任何其他(中间)流量控制?为什么?

要了解 InfiniBand 的基础知识,我建议您访问 Mellanox Academy Web-Site 并在注册后使用 InfiniBand EssentialsInfiniBand Fundamentals 课程(在 Technologies 部分)。

在我看来 "switch-based architecture" 意味着交换机是结构的一部分(见下图,其中我用蓝色形状显示了交换机)。

端到端流量控制,又名消息级流量控制,是一种可靠连接的特性(能力)。响应者可以使用它来优化其接收资源的使用。本质上,请求者不能发送请求消息,除非它有适当的信用来这样做。详情请参考InfiniBand specification

以太网和 Infiniband 之间的主要区别是 RDMA(远程直接内存访问),这使得 Infiniband 更快。 DMA(在网络中)是一种直接从 NIC(网络接口控制器)访问内存的操作,不涉及 CPU。 RDMA也是一样的思路,只是直接内存访问是由远程机器完成的。

更多差异:

  1. 通信在 QP(Queue 对)而不是通道之间完成。
  2. 数据流 to/from 用户 space 直接 to/from HW 而不是通过内核堆栈。

请求者和响应者之间的基本 RDMA 流程包括:

  1. 握手 - 请求者和响应者之间交换详细信息(主要是分配的内存地址和访问密钥)。
  2. 在请求方创建一个 READ/WRITE/ATOMIC 请求。
  3. 将请求发送给响应者。
  4. 直接访问响应端的内存。
  5. 如果READ/ATOMIC - 将从响应者内存中读取的数据发送回请求者。

主要好处:

  1. 响应端没有 CPU 访问 - 吞吐量仅受 HW(NIC 和 PCI)限制。
  2. 响应端没有 运行 软件 - 允许低得多的延迟(比典型的 TCP/UDP 延迟少约 10 倍)。
  3. 支持请求方完成的“轮询模式”,这意味着一旦硬件完成传输,软件就会立即知道。以高 CPU 利用率为代价,允许更低的延迟和更高的吞吐量。

更多信息请参考Infiniband spec(抱歉太长了)

相关流量协议:

  • RoCE(RDMA over Converged Ethernet),它通过用 L2/L3/L4 以太网 headers.

    包装 Infiniband 数据包来实现 RDMA over Ethernet 结构
  • IPoIB(Infiniband 上的 IP),它通过使用 Infiniband headers.[=11= 包装 L3/L4 数据包在 Infiniband 结构上实现常规网络(通过内核堆栈) ]

希望对您有所帮助。

技术信息

It is also said that InfiniBand has end-to-end flow control.

结构内流量通过称为子网管理器(通常简称为“SM”)的守护程序进行控制。 A well known open source implementation (opensm) 目前支持 9 种不同的路由算法(Min Hop、UPDN、DNUP、Fat Tree、Torus-2QoS 等)。关于这些算法及其不同的流量控制方法,可以写很多页。

Does it mean that there is no (need) for any other (in-between) flow control? Why?

结构间流量通常需要一种协议,该协议也可以从 InfiniBand 网络和其他网络类型进行路由。 LNet 是一个可以做到这一点的协议示例。

一般信息

Can anybody explain what is InfiniBand?

这个问题 非常 广泛,因此我将尝试添加一些更一般的信息作为对现有答案的补充。

未来路线图

目前有多代 Infiniband(QDR、FDR、EDR),HDR 有望在 2018 年或 2019 年的某个时候问世。Yes, this may become dated quickly, so refer to the roadmap for current information。即将到来的几代产品称为 NDR 和 XDR,但在当前路线图上什至没有暂定日期。

主要组织

重要组织包括 Infiniband Trade Association (IBTA) and Open Fabrics Alliance (OFA)。请访问他们的网站以获取大量有用的 Infiniband 信息。