通过并发执行读取事件计数器

Reading event counters with concurrent exection

我试图在同时执行两个内核时使用 nvprof 读取性能计数器。

nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram

然而,通过这样做,内核执行似乎是序列化的。我想要的正是它们在同时 运行 时的表现。

当内核 运行 并发时,是否有可能读取性能计数器?我不一定需要每个内核的性能,聚合数据非常好。

我 运行 在计算 3.5 的 Kepler gpu 上。

没有。 nvprof v7.5 及更早版本不支持以一种可用于调查并发内核性能的方式收集性能计数器。我建议您通过 NVIDIA 开发人员计划提交功能请求。这在团队任务列表中。客户反馈有助于将功能提升到列表中。