如何增加nvidia-docker初始化的超时限制
How to increase the timeout limit of nvidia-docker initialization
我想知道如何在初始化时增加nvidia-docker的超时限制。
当我的 2 个或更多 4-GPU 服务器繁忙时,我总是会收到超时错误:
nvidia-container-cli: initialization error: driver error: timed out
启动时 docker:
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
非常感谢您的帮助!
我不知道如何更改超时,但您可以通过预先启动 nvidia-persistenced
来解决这个问题,这将初始化 GPU 设备并使其保持打开状态,因此驱动程序没有在 docker 启动期间完成该过程。
这不是问题的确切答案,只是克服超时错误的解决方法。
在启动 docker 之前,运行 nvidia-smi
查看哪些进程正在 运行 GPU 上运行。使用以下方法禁用这些进程:
kill -TSTP [pid]
然后启动 docker。完成后继续使用之前禁用的进程:
kill -CONT [pid]
我想知道如何在初始化时增加nvidia-docker的超时限制。
当我的 2 个或更多 4-GPU 服务器繁忙时,我总是会收到超时错误:
nvidia-container-cli: initialization error: driver error: timed out
启动时 docker:
docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
非常感谢您的帮助!
我不知道如何更改超时,但您可以通过预先启动 nvidia-persistenced
来解决这个问题,这将初始化 GPU 设备并使其保持打开状态,因此驱动程序没有在 docker 启动期间完成该过程。
这不是问题的确切答案,只是克服超时错误的解决方法。
在启动 docker 之前,运行 nvidia-smi
查看哪些进程正在 运行 GPU 上运行。使用以下方法禁用这些进程:
kill -TSTP [pid]
然后启动 docker。完成后继续使用之前禁用的进程:
kill -CONT [pid]