nvidia-smi 进程挂起,也无法用 SIGKILL 终止

nvidia-smi process hangs and can't be killed with SIGKILL either

我在 Ubuntu 14.04,CUDA 工具包 8,驱动程序版本 367.48

当我发出 nvidia-smi 命令时,它会无限期地挂起。 当我再次登录并尝试终止 nvidia-smi 进程时,例如 kill -9 <PID>,它并没有被终止。 如果我给出另一个 nvidia-smi 命令,我会发现两个进程 运行 - 当然是从另一个 shell 登录时,因为它像以前一样卡住了。

会不会是驱动的问题? 这不是最新的,但仍然很新..

鉴于你的特殊情况,我会按照bio的建议尝试重新安装它。

您尝试过 sudo kill -9 <PID> 吗?你可能有但仍然把它放在那里。或者,也许做 sudo kill -15 <PID> 来终止它。根据您告诉我们的情况,您的驱动程序似乎陷入了 signal 1 挂断。

当 运行 时 nvidia-smi 会自发挂起似乎很奇怪,但问题可能在于未正确安装或未获得 运行 超级用户访问权限。

您是否尝试过使用:

service nvidia-smi status pgrep nvidia-smi ps -aux | grep nvidia-smi

获取其当前状态?

无论如何,希望这对您有所帮助。我会尝试卸载并重新安装或使用 sudo apt --fix-broken 尝试修复损坏的 packages/drivers.

干杯!

我通过在每次启动时执行

解决了这个问题

sudo nvidia-smi -pm 1

以上命令启用持久化模式。这个问题已经影响 nvidia 驱动程序两年多了,但他们似乎对修复它不感兴趣。这似乎与电源管理问题有关,在 OS 启动一段时间后,如果 nvidia-persistenced 服务启用了 no-persistence-mode 选项,GPU 将节省电量,并且nvidia-smi 命令将挂起,等待它在设备上再次获得控制权