跨并发内核执行的 CUDA 全局原子操作

CUDA global atomic operations across concurrent kernel executions

我的 CUDA 应用程序对体积执行关联归约。本质上，每个线程计算的值被自动添加到全局内存中同一输出缓冲区的重叠位置。

是否可以同时启动具有不同输入参数和相同输出缓冲区的内核？换句话说，每个内核将共享同一个全局缓冲区并自动写入。

所有内核都在同一个 GPU 上运行。

是的，这是可能的。对全局内存的原子操作是设备范围的。它们对于设备上的任何代码运行都是原子的。