GTX 1070 中的 FP64 CUDA 核心数
Number of FP64 CUDA cores in GTX 1070
我找到了有关 Tesla P100 每个 SM 包含多少 CUDA 内核的信息。它是 64*FP32 和 32*FP64。我找不到 GTX 1070 的任何编号。
还有后续问题。由于 Tesla 的内核比率是 1:2,这是否意味着双精度性能最多是单精度内核性能的一半?
I have found information about how much does Tesla P100 contain CUDA cores per one SM. Its 64*FP32 and 32*FP64. I am unable to find any numbers for GTX 1070.
GTX 1070 是 cc6.1 GPU。我们可以参考编程指南中的this table来发现相对指令吞吐量:
6.1
32-bit floating-point add, multiply, multiply-add 128
64-bit floating-point add, multiply, multiply-add 4
这些数字是每个时钟和每个SM。这意味着每个 SM 有 128 个 FP32 浮点单元和 4 个 FP64 浮点单元。然后,您只需将这些数字乘以 cc6.1 GPU 中的 SM 数量(例如,您可以通过 deviceQuery
获得),以获得 GPU 中的总 FP32 和总 FP64 内核。
Also followup question. Since ratio of cores for Tesla is 1:2 does it mean that double precision performance is at max one half of performance of single precision kernel?
是的,这就是它的意思(对于适当测量的计算绑定代码,即每种情况下的限制器都是这个特定指标的代码)。注意这个1:2比例并不适用于所有的Tesla处理器,但是适用于Fermi Tesla处理器(如M2070、M2090等),并且适用于Tesla P100。也许更好的表述方式是,对于这种类型的 GPU,1:2 比率反映了 峰值理论性能 的比率,用于 FP64:FP32 比较。
我找到了有关 Tesla P100 每个 SM 包含多少 CUDA 内核的信息。它是 64*FP32 和 32*FP64。我找不到 GTX 1070 的任何编号。
还有后续问题。由于 Tesla 的内核比率是 1:2,这是否意味着双精度性能最多是单精度内核性能的一半?
I have found information about how much does Tesla P100 contain CUDA cores per one SM. Its 64*FP32 and 32*FP64. I am unable to find any numbers for GTX 1070.
GTX 1070 是 cc6.1 GPU。我们可以参考编程指南中的this table来发现相对指令吞吐量:
6.1
32-bit floating-point add, multiply, multiply-add 128
64-bit floating-point add, multiply, multiply-add 4
这些数字是每个时钟和每个SM。这意味着每个 SM 有 128 个 FP32 浮点单元和 4 个 FP64 浮点单元。然后,您只需将这些数字乘以 cc6.1 GPU 中的 SM 数量(例如,您可以通过 deviceQuery
获得),以获得 GPU 中的总 FP32 和总 FP64 内核。
Also followup question. Since ratio of cores for Tesla is 1:2 does it mean that double precision performance is at max one half of performance of single precision kernel?
是的,这就是它的意思(对于适当测量的计算绑定代码,即每种情况下的限制器都是这个特定指标的代码)。注意这个1:2比例并不适用于所有的Tesla处理器,但是适用于Fermi Tesla处理器(如M2070、M2090等),并且适用于Tesla P100。也许更好的表述方式是,对于这种类型的 GPU,1:2 比率反映了 峰值理论性能 的比率,用于 FP64:FP32 比较。