使用 Streams 在 CUDA 上调用内核延迟

Kernel invoking delay on CUDA with Streams

我从头开始为 CUDA 创建了扫描算法，并尝试将其用于小于 80,000 字节的较小数据量。

创建了两个单独的实例，一个在可能的情况下使用流运行内核，另一个仅在默认流中运行。

我观察到的是，对于这个范围的数据大小，与其他方法相比，运行流需要更长的时间来完成任务。

使用 nvprofiler 进行分析时，观察到的是对于较小的数据量，流中的运行不会为单独的内核提供并行性

没有流

有流

但是当数据量增加时，可以获得某种并行性

具有 400,000 字节的流

我的问题是，是否有一些额外的参数可以减少此内核调用时间延迟，或者对于使用流不利的较小数据大小具有这种行为是否正常

更新：

我也包含了运行时 API 调用时间轴以阐明答案

通常情况下，您的数据太小，无法在第一种情况下充分利用 GPU。如果您检查 nvvp 中 'Runtime API' 的时间线（您没有在图中显示），您会发现启动内核需要几微秒。如果流 13 中的第一个内核太短，流 14 中的第二个内核可能尚未启动，因此流之间没有并行性。

由于这些开销，如果数据很小，您可能会发现在 CPU 上运行您的程序会更快。