GPU 在执行 Tensorflow 或 Theano 代码期间丢失

GPU is lost during execution of either Tensorflow or Theano code

当训练两种不同的神经网络之一时，一个使用 Tensorflow，另一个使用 Theano，有时在一段随机的时间后（可能是几小时或几分钟，大多数是几小时），执行冻结并且我通过运行 "nvidia-smi":

收到此消息

"Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost. Reboot the system to recover this GPU"

我尝试监控 GPU 性能以执行 13 小时，一切似乎都很稳定：

我正在与：

我不确定如何解决这个问题，任何人都可以提出导致此问题的原因以及如何diagnose/fix这个问题的想法吗？

我刚才发布了这个问题，但经过当时花了几个星期的调查，我们设法找到了问题（和解决方案）。我现在不记得所有的细节，但我发布了我们的主要结论，以防有人发现它有用。

底线是——我们的硬件不够强大，无法支持高负载 GPU-CPU 通信。我们在具有 1 CPU 和 4 个 GPU 设备的机架服务器上观察到这些问题，只是 PCI 总线过载。通过向机架服务器添加另一个 CPU 解决了问题。