调试 "Invalid address space" 错误
Debugging an "Invalid address space" error
我构建了一些使用 OpenACC 的 C++ 代码,并使用 PGI 编译器对其进行了编译,以便在 Tesla GPU 上使用。
编译成功,没有任何警告。
我 运行 程序并得到两个错误:
call to cuStreamSynchronize returned error 717: Invalid address space
call to cuMemFreeHost returned error 717: Invalid address space
互联网似乎对此知之甚少,除了建议 enabling unified memory 这样问题就自动被掩盖了。我不喜欢那种解决方案。
我该如何调试它?
仅在 CPU 上使用 C++ 代码 运行ning,我将启动 gdb,进行回溯,然后说 "Ah ha!"
但现在我的代码存在于 CPU 和 GPU 上,数据在两者之间流动。连用什么工具都不知道
后备方法是开始注释行,直到问题消失,但这似乎也不是最佳选择。
您可以使用"cuda-gdb"调试设备代码或使用"cuda-memcheck"检查内存错误。
虽然我不确定这两者是否对您有所帮助。该错误表明设备代码正在使用来自错误内存 space 的地址发出指令。例如,将共享内存指针与需要全局内存指针的指令一起使用。
我以前没有见过这个错误,也没有看到任何以前的错误报告,所以只能推测原因。一种可能性是,如果您有一个共享内存变量("private" 子句中的标量或数组,或 "cache" 指令)从外部联组循环传递到向量例程。在这种情况下,向量例程可能正在访问变量,就好像它在全局内存中一样。
无论是什么原因,很可能是编译器错误。如果可能,请 post 或将重现示例发送给 PGI 客户服务 (trs@pgroup.com),我会把它交给我们的编译器工程师进行调查。
一旦我更好地了解原因,我也可以尝试为您提供解决方法。不过与此同时,您可以尝试使用“-ta=tesla:nollvm,keepgpu”进行编译。 "nollvm" 将导致编译器生成 OpenACC 内核的中间 CUDA C 版本,而不是默认的 LLVM 设备代码生成器。 "keepgpu" 将保留您可以检查的中间“.gpu”文件。
有一些有助于调试的有用环境变量。可以启用任意组合:
export PGI_ACC_TIME=1 #Profile time usage
export PGI_ACC_NOTIFY=1 #Set to values 0-3 where 3 is the most detailed
export PGI_ACC_DEBUG=1 #Extra debugging info
我构建了一些使用 OpenACC 的 C++ 代码,并使用 PGI 编译器对其进行了编译,以便在 Tesla GPU 上使用。
编译成功,没有任何警告。
我 运行 程序并得到两个错误:
call to cuStreamSynchronize returned error 717: Invalid address space
call to cuMemFreeHost returned error 717: Invalid address space
互联网似乎对此知之甚少,除了建议 enabling unified memory 这样问题就自动被掩盖了。我不喜欢那种解决方案。
我该如何调试它?
仅在 CPU 上使用 C++ 代码 运行ning,我将启动 gdb,进行回溯,然后说 "Ah ha!"
但现在我的代码存在于 CPU 和 GPU 上,数据在两者之间流动。连用什么工具都不知道
后备方法是开始注释行,直到问题消失,但这似乎也不是最佳选择。
您可以使用"cuda-gdb"调试设备代码或使用"cuda-memcheck"检查内存错误。
虽然我不确定这两者是否对您有所帮助。该错误表明设备代码正在使用来自错误内存 space 的地址发出指令。例如,将共享内存指针与需要全局内存指针的指令一起使用。
我以前没有见过这个错误,也没有看到任何以前的错误报告,所以只能推测原因。一种可能性是,如果您有一个共享内存变量("private" 子句中的标量或数组,或 "cache" 指令)从外部联组循环传递到向量例程。在这种情况下,向量例程可能正在访问变量,就好像它在全局内存中一样。
无论是什么原因,很可能是编译器错误。如果可能,请 post 或将重现示例发送给 PGI 客户服务 (trs@pgroup.com),我会把它交给我们的编译器工程师进行调查。
一旦我更好地了解原因,我也可以尝试为您提供解决方法。不过与此同时,您可以尝试使用“-ta=tesla:nollvm,keepgpu”进行编译。 "nollvm" 将导致编译器生成 OpenACC 内核的中间 CUDA C 版本,而不是默认的 LLVM 设备代码生成器。 "keepgpu" 将保留您可以检查的中间“.gpu”文件。
有一些有助于调试的有用环境变量。可以启用任意组合:
export PGI_ACC_TIME=1 #Profile time usage
export PGI_ACC_NOTIFY=1 #Set to values 0-3 where 3 is the most detailed
export PGI_ACC_DEBUG=1 #Extra debugging info