CUDA:计算能力为 1.0 的设备的线程块限制是什么?
CUDA: What is the thread block limitation of devices whose compute capability is 1.0?
最近在看书'Programming Massively Parallel processors'。第 3 章中的一项阅读练习要求我检测 SM 的哪些作业是可能的。问题如下所示
指出每个多处理器可以进行以下哪些分配:
- 8 个块,每个块有 128 个线程,在计算能力为 1.0 的设备上。
- 8 个块,每个块有 128 个线程,在计算能力为 1.2 的设备上。
- 8 个块,每个块有 128 个线程,在计算能力为 3.0 的设备上。
- 16 个块,每个块有 64 个线程,在计算能力为 1.0 的设备上。
- 16 个块,每个块有 64 个线程,在计算能力为 1.2 的设备上。
- 16 个块,每个块在具有 3.0 计算能力的设备上具有 64 个线程。
从最新的 CUDA 编程协会,我只找到了计算能力 3.0 的规范,它允许每个 SM 最多 16 个块和 2048 个线程,每个块最多 1024 个线程。遗憾的是,我没有找到任何与计算能力 1.0 相关的信息。
谁能告诉我在哪里可以找到计算能力 1.0 的块规范?非常感谢
参见CUDA in Wikipedia的页面,所有设备都有一个有效的规范。它将在计算能力(版本)部分。
但是这里有一张关于它的照片:
最近在看书'Programming Massively Parallel processors'。第 3 章中的一项阅读练习要求我检测 SM 的哪些作业是可能的。问题如下所示
指出每个多处理器可以进行以下哪些分配:
- 8 个块,每个块有 128 个线程,在计算能力为 1.0 的设备上。
- 8 个块,每个块有 128 个线程,在计算能力为 1.2 的设备上。
- 8 个块,每个块有 128 个线程,在计算能力为 3.0 的设备上。
- 16 个块,每个块有 64 个线程,在计算能力为 1.0 的设备上。
- 16 个块,每个块有 64 个线程,在计算能力为 1.2 的设备上。
- 16 个块,每个块在具有 3.0 计算能力的设备上具有 64 个线程。
从最新的 CUDA 编程协会,我只找到了计算能力 3.0 的规范,它允许每个 SM 最多 16 个块和 2048 个线程,每个块最多 1024 个线程。遗憾的是,我没有找到任何与计算能力 1.0 相关的信息。
谁能告诉我在哪里可以找到计算能力 1.0 的块规范?非常感谢
参见CUDA in Wikipedia的页面,所有设备都有一个有效的规范。它将在计算能力(版本)部分。
但是这里有一张关于它的照片: