在 CUDA 中合并 reads/writes

coalesced reads/writes in CUDA

有没有办法以合并的方式检查我的内核读写 from/to 全局内存?我一直在尝试各种方法来确保我的内核有效地读取和写入内存以获得更好的性能。

谢谢

使用分析器,例如 nvprof

gld_efficiency 和 gst_efficiency 指标将为您提供合并的全局加载和存储百分比的直接度量。例如 Linux:

nvprof --metrics gld_efficiency,gst_efficiency ./my_app