最大并发内核数&虚拟代码架构
Maximum number of concurrent kernels & virtual code architecture
所以我找到了这个wikipedia resource
Maximum number of resident grids per device
(Concurrent Kernel Execution)
对于每个计算能力,它表示并发内核的数量,我假设这是并发内核的最大数量。
现在我收到了 GTX 1060,据 this nvidia CUDA resource 计算能力为 6.1。到目前为止,根据我对 CUDA 的了解,您可以在编译时在 NVCC 中指定代码的虚拟计算能力,尽管使用标志 -arch=compute_XX
.
那么我的 GPU 是否会被硬件限制为 32 个并发内核,或者它是否能够使用 -arch=compute_60
标志达到 128 个?
根据 table 13 在 NVIDIA CUDA programming guide 计算能力 6.1 设备最多有 32 个常驻网格 = 32 个并发内核。
即使你使用-arch=compute_60
标志,你也会被限制在32个并发内核的硬件限制。选择特定的体系结构进行编译不允许您超出机器的硬件限制。
所以我找到了这个wikipedia resource
Maximum number of resident grids per device (Concurrent Kernel Execution)
对于每个计算能力,它表示并发内核的数量,我假设这是并发内核的最大数量。
现在我收到了 GTX 1060,据 this nvidia CUDA resource 计算能力为 6.1。到目前为止,根据我对 CUDA 的了解,您可以在编译时在 NVCC 中指定代码的虚拟计算能力,尽管使用标志 -arch=compute_XX
.
那么我的 GPU 是否会被硬件限制为 32 个并发内核,或者它是否能够使用 -arch=compute_60
标志达到 128 个?
根据 table 13 在 NVIDIA CUDA programming guide 计算能力 6.1 设备最多有 32 个常驻网格 = 32 个并发内核。
即使你使用-arch=compute_60
标志,你也会被限制在32个并发内核的硬件限制。选择特定的体系结构进行编译不允许您超出机器的硬件限制。