调试 "Invalid address space" 错误

Question

我构建了一些使用 OpenACC 的 C++ 代码，并使用 PGI 编译器对其进行了编译，以便在 Tesla GPU 上使用。

编译成功，没有任何警告。

我运行程序并得到两个错误：

call to cuStreamSynchronize returned error 717: Invalid address space
call to cuMemFreeHost returned error 717: Invalid address space

互联网似乎对此知之甚少，除了建议 enabling unified memory 这样问题就自动被掩盖了。我不喜欢那种解决方案。

我该如何调试它？

仅在 CPU 上使用 C++ 代码运行ning，我将启动 gdb，进行回溯，然后说 "Ah ha!"

但现在我的代码存在于 CPU 和 GPU 上，数据在两者之间流动。连用什么工具都不知道

后备方法是开始注释行，直到问题消失，但这似乎也不是最佳选择。

Answer 1

您可以使用"cuda-gdb"调试设备代码或使用"cuda-memcheck"检查内存错误。

虽然我不确定这两者是否对您有所帮助。该错误表明设备代码正在使用来自错误内存 space 的地址发出指令。例如，将共享内存指针与需要全局内存指针的指令一起使用。

我以前没有见过这个错误，也没有看到任何以前的错误报告，所以只能推测原因。一种可能性是，如果您有一个共享内存变量（"private" 子句中的标量或数组，或 "cache" 指令）从外部联组循环传递到向量例程。在这种情况下，向量例程可能正在访问变量，就好像它在全局内存中一样。

无论是什么原因，很可能是编译器错误。如果可能，请 post 或将重现示例发送给 PGI 客户服务 (trs@pgroup.com)，我会把它交给我们的编译器工程师进行调查。

一旦我更好地了解原因，我也可以尝试为您提供解决方法。不过与此同时，您可以尝试使用“-ta=tesla:nollvm,keepgpu”进行编译。 "nollvm" 将导致编译器生成 OpenACC 内核的中间 CUDA C 版本，而不是默认的 LLVM 设备代码生成器。 "keepgpu" 将保留您可以检查的中间“.gpu”文件。

Answer 2

有一些有助于调试的有用环境变量。可以启用任意组合：

export PGI_ACC_TIME=1   #Profile time usage
export PGI_ACC_NOTIFY=1 #Set to values 0-3 where 3 is the most detailed
export PGI_ACC_DEBUG=1  #Extra debugging info

调试 "Invalid address space" 错误

Debugging an "Invalid address space" error

c++

debugging

openacc