如何增加nvidia-docker初始化的超时限制

Question

我想知道如何在初始化时增加nvidia-docker的超时限制。

当我的 2 个或更多 4-GPU 服务器繁忙时，我总是会收到超时错误：

nvidia-container-cli: initialization error: driver error: timed out

启动时 docker:

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

非常感谢您的帮助！

Answer 1

我不知道如何更改超时，但您可以通过预先启动 nvidia-persistenced 来解决这个问题，这将初始化 GPU 设备并使其保持打开状态，因此驱动程序没有在 docker 启动期间完成该过程。

Answer 2

这不是问题的确切答案，只是克服超时错误的解决方法。

在启动 docker 之前，运行 nvidia-smi 查看哪些进程正在运行 GPU 上运行。使用以下方法禁用这些进程：

kill -TSTP [pid]

然后启动 docker。完成后继续使用之前禁用的进程：

kill -CONT [pid]

How to increase the timeout limit of nvidia-docker initialization