为什么 GRO 更高效?
Why is GRO more efficient?
Generic Receive Offload (GRO) 是 Linux 中的一种软件技术,用于聚合属于同一流的多个传入数据包。链接的文章声称 CPU 利用率降低了,因为不是每个数据包单独遍历网络堆栈,而是单个聚合数据包遍历网络堆栈。
但是,如果看一下 GRO 的源代码,感觉这本身就是一个网络堆栈。例如,传入的 TCP/IPv4 数据包需要经过:
每个函数都执行解封装并查看各自的 frame/network/transport headers,正如 "regular" 网络堆栈所期望的那样。
假设机器不执行 firewall/NAT 或其他明显昂贵的 per-packet 处理,"regular" 网络堆栈中的什么东西如此缓慢以至于 "GRO network stack" 可以加速?
简短回答:GRO 是在接收流程的早期完成的,因此它基本上减少了 ~(GRO 会话大小/MTU) 的操作数。
更多详情:
最常见的 GRO 函数是 napi_gro_receive()。几乎所有网络驱动程序都使用了 93 次(在内核 4.14 中)。通过在 NAPI 级别使用 GRO,驱动程序很早就在接收完成处理程序中对大型 SKB 进行聚合。这意味着接收堆栈中的所有下一个函数做的处理要少得多。
这是 Mellanox ConnectX-4Lx NIC 的 RX 流程的一个很好的可视化表示(抱歉,这是我可以访问的):
如您所见,GRO 聚合位于调用堆栈的最底部。您还可以查看之后完成了多少工作。想象一下,如果这些功能中的每一个都在单个 MTU 上运行,您将拥有多少开销。
希望这对您有所帮助。
Generic Receive Offload (GRO) 是 Linux 中的一种软件技术,用于聚合属于同一流的多个传入数据包。链接的文章声称 CPU 利用率降低了,因为不是每个数据包单独遍历网络堆栈,而是单个聚合数据包遍历网络堆栈。
但是,如果看一下 GRO 的源代码,感觉这本身就是一个网络堆栈。例如,传入的 TCP/IPv4 数据包需要经过:
每个函数都执行解封装并查看各自的 frame/network/transport headers,正如 "regular" 网络堆栈所期望的那样。
假设机器不执行 firewall/NAT 或其他明显昂贵的 per-packet 处理,"regular" 网络堆栈中的什么东西如此缓慢以至于 "GRO network stack" 可以加速?
简短回答:GRO 是在接收流程的早期完成的,因此它基本上减少了 ~(GRO 会话大小/MTU) 的操作数。
更多详情: 最常见的 GRO 函数是 napi_gro_receive()。几乎所有网络驱动程序都使用了 93 次(在内核 4.14 中)。通过在 NAPI 级别使用 GRO,驱动程序很早就在接收完成处理程序中对大型 SKB 进行聚合。这意味着接收堆栈中的所有下一个函数做的处理要少得多。
这是 Mellanox ConnectX-4Lx NIC 的 RX 流程的一个很好的可视化表示(抱歉,这是我可以访问的):
如您所见,GRO 聚合位于调用堆栈的最底部。您还可以查看之后完成了多少工作。想象一下,如果这些功能中的每一个都在单个 MTU 上运行,您将拥有多少开销。
希望这对您有所帮助。