GPU 在执行 Tensorflow 或 Theano 代码期间丢失

GPU is lost during execution of either Tensorflow or Theano code

当训练两种不同的神经网络之一时,一个使用 Tensorflow,另一个使用 Theano,有时在一段随机的时间后(可能是几小时或几分钟,大多数是几小时),执行冻结并且我通过 运行 "nvidia-smi":

收到此消息

"Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost. Reboot the system to recover this GPU"

我尝试监控 GPU 性能以执行 13 小时,一切似乎都很稳定:

我正在与:

我不确定如何解决这个问题,任何人都可以提出导致此问题的原因以及如何diagnose/fix这个问题的想法吗?

我刚才发布了这个问题,但经过当时花了几个星期的调查,我们设法找到了问题(和解决方案)。 我现在不记得所有的细节,但我发布了我们的主要结论,以防有人发现它有用。

底线是——我们的硬件不够强大,无法支持高负载 GPU-CPU 通信。我们在具有 1 CPU 和 4 个 GPU 设备的机架服务器上观察到这些问题,只是 PCI 总线过载。通过向机架服务器添加另一个 CPU 解决了问题。