使用 tensorflow 时出现 Nvidia GPU 错误
Nvidia GPU error while using tensorflow
Tensorflow 会话在 GPU 节点上创建失败并出现以下错误:
2018-06-19 07:01:08.400165: E
tensorflow/core/common_runtime/direct_session.cc:154] Internal: failed
initializing StreamExecutor for CUDA device ordinal 0: Internal:
failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_ECC_UNCORRECTABLE
以下是 GPU 信息
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.30 Driver Version: 390.30 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K80 Off | 0000752C:00:00.0 Off | 2 |
| N/A 39C P8 25W / 149W | 0MiB / 11441MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
请分享一些提示以进一步调试。
PS:相同的程序在 CPU 节点
上运行良好
来自 this 其他 Whosebug
讨论,
我认为您的 GPU 状态有损坏的位,ECC 或纠错码无法纠正它。
根据讨论重新启动计算机可能会有帮助。
另一件事是,在您的 GPU 信息中,您看到 Uncorr. ECC
应该是 N/A 但在您的情况下,它显示 2。所以我的建议是你重新启动计算机并在运行你的程序之前确认这个Uncorr. ECC
为N/A
。这样您就可以确保您的程序不会产生此问题。
Tensorflow 会话在 GPU 节点上创建失败并出现以下错误:
2018-06-19 07:01:08.400165: E tensorflow/core/common_runtime/direct_session.cc:154] Internal: failed initializing StreamExecutor for CUDA device ordinal 0: Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_ECC_UNCORRECTABLE
以下是 GPU 信息
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.30 Driver Version: 390.30 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K80 Off | 0000752C:00:00.0 Off | 2 |
| N/A 39C P8 25W / 149W | 0MiB / 11441MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
请分享一些提示以进一步调试。
PS:相同的程序在 CPU 节点
上运行良好来自 this 其他 Whosebug
讨论,
我认为您的 GPU 状态有损坏的位,ECC 或纠错码无法纠正它。
根据讨论重新启动计算机可能会有帮助。
另一件事是,在您的 GPU 信息中,您看到 Uncorr. ECC
应该是 N/A 但在您的情况下,它显示 2。所以我的建议是你重新启动计算机并在运行你的程序之前确认这个Uncorr. ECC
为N/A
。这样您就可以确保您的程序不会产生此问题。