使用 tensorflow 时出现 Nvidia GPU 错误

Nvidia GPU error while using tensorflow

Tensorflow 会话在 GPU 节点上创建失败并出现以下错误:

2018-06-19 07:01:08.400165: E tensorflow/core/common_runtime/direct_session.cc:154] Internal: failed initializing StreamExecutor for CUDA device ordinal 0: Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_ECC_UNCORRECTABLE

以下是 GPU 信息

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.30                 Driver Version: 390.30                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 0000752C:00:00.0 Off |                    2 |
| N/A   39C    P8    25W / 149W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

请分享一些提示以进一步调试。

PS:相同的程序在 CPU 节点

上运行良好

来自 this 其他 Whosebug 讨论,

我认为您的 GPU 状态有损坏的位,ECC 或纠错码无法纠正它。

根据讨论重新启动计算机可能会有帮助。

另一件事是,在您的 GPU 信息中,您看到 Uncorr. ECC 应该是 N/A 但在您的情况下,它显示 2。所以我的建议是你重新启动计算机并在运行你的程序之前确认这个Uncorr. ECCN/A。这样您就可以确保您的程序不会产生此问题。