最大并发内核数&虚拟代码架构

Maximum number of concurrent kernels & virtual code architecture

Maximum number of resident grids per device (Concurrent Kernel Execution)

对于每个计算能力，它表示并发内核的数量，我假设这是并发内核的最大数量。

现在我收到了 GTX 1060，据 this nvidia CUDA resource 计算能力为 6.1。到目前为止，根据我对 CUDA 的了解，您可以在编译时在 NVCC 中指定代码的虚拟计算能力，尽管使用标志 -arch=compute_XX.

那么我的 GPU 是否会被硬件限制为 32 个并发内核，或者它是否能够使用 -arch=compute_60 标志达到 128 个？

根据 table 13 在 NVIDIA CUDA programming guide 计算能力 6.1 设备最多有 32 个常驻网格 = 32 个并发内核。

即使你使用-arch=compute_60标志，你也会被限制在32个并发内核的硬件限制。选择特定的体系结构进行编译不允许您超出机器的硬件限制。