如何增加nvidia-docker初始化的超时限制

How to increase the timeout limit of nvidia-docker initialization

我想知道如何在初始化时增加nvidia-docker的超时限制。

当我的 2 个或更多 4-GPU 服务器繁忙时,我总是会收到超时错误:

nvidia-container-cli: initialization error: driver error: timed out

启动时 docker:

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

非常感谢您的帮助!

我不知道如何更改超时,但您可以通过预先启动 nvidia-persistenced 来解决这个问题,这将初始化 GPU 设备并使其保持打开状态,因此驱动程序没有在 docker 启动期间完成该过程。

这不是问题的确切答案,只是克服超时错误的解决方法。

在启动 docker 之前,运行 nvidia-smi 查看哪些进程正在 运行 GPU 上运行。使用以下方法禁用这些进程:

kill -TSTP [pid]

然后启动 docker。完成后继续使用之前禁用的进程:

kill -CONT [pid]