使用 TensorFlow 时内存带宽不正确

Incorrect memory bandwidth when using TensorFlow

我想知道这个内存带宽量是否正确。我有一个 NVDIA RTX 3090,理论上它的带宽应该在 936.2 GB/s 左右。然而,当使用 TensorFlow 时,它显得明显更低。是否有任何限制,或者这是应该如何? 我目前的总线接口是 PCIe x16 4.0

enter image description here

871.81 千兆字节 (GiB) ~= 936.1 千兆字节 (GB)

因此Tensorflow报告的带宽与卡的官方规格大致相同(0.1 GB/s 差异)。我怀疑 0.1 的差异只是某处的舍入或精度损失。