nvidia-smi 进程挂起,也无法用 SIGKILL 终止
nvidia-smi process hangs and can't be killed with SIGKILL either
我在 Ubuntu 14.04,CUDA 工具包 8,驱动程序版本 367.48。
当我发出 nvidia-smi
命令时,它会无限期地挂起。
当我再次登录并尝试终止 nvidia-smi
进程时,例如 kill -9 <PID>
,它并没有被终止。
如果我给出另一个 nvidia-smi
命令,我会发现两个进程 运行 - 当然是从另一个 shell 登录时,因为它像以前一样卡住了。
会不会是驱动的问题?
这不是最新的,但仍然很新..
鉴于你的特殊情况,我会按照bio的建议尝试重新安装它。
您尝试过 sudo kill -9 <PID>
吗?你可能有但仍然把它放在那里。或者,也许做 sudo kill -15 <PID>
来终止它。根据您告诉我们的情况,您的驱动程序似乎陷入了 signal 1
挂断。
当 运行 时 nvidia-smi
会自发挂起似乎很奇怪,但问题可能在于未正确安装或未获得 运行 超级用户访问权限。
您是否尝试过使用:
service nvidia-smi status
pgrep nvidia-smi
ps -aux | grep nvidia-smi
获取其当前状态?
无论如何,希望这对您有所帮助。我会尝试卸载并重新安装或使用 sudo apt --fix-broken
尝试修复损坏的 packages/drivers.
干杯!
我通过在每次启动时执行
解决了这个问题
sudo nvidia-smi -pm 1
以上命令启用持久化模式。这个问题已经影响 nvidia 驱动程序两年多了,但他们似乎对修复它不感兴趣。这似乎与电源管理问题有关,在 OS 启动一段时间后,如果 nvidia-persistenced
服务启用了 no-persistence-mode
选项,GPU 将节省电量,并且nvidia-smi
命令将挂起,等待它在设备上再次获得控制权
我在 Ubuntu 14.04,CUDA 工具包 8,驱动程序版本 367.48。
当我发出 nvidia-smi
命令时,它会无限期地挂起。
当我再次登录并尝试终止 nvidia-smi
进程时,例如 kill -9 <PID>
,它并没有被终止。
如果我给出另一个 nvidia-smi
命令,我会发现两个进程 运行 - 当然是从另一个 shell 登录时,因为它像以前一样卡住了。
会不会是驱动的问题? 这不是最新的,但仍然很新..
鉴于你的特殊情况,我会按照bio的建议尝试重新安装它。
您尝试过 sudo kill -9 <PID>
吗?你可能有但仍然把它放在那里。或者,也许做 sudo kill -15 <PID>
来终止它。根据您告诉我们的情况,您的驱动程序似乎陷入了 signal 1
挂断。
当 运行 时 nvidia-smi
会自发挂起似乎很奇怪,但问题可能在于未正确安装或未获得 运行 超级用户访问权限。
您是否尝试过使用:
service nvidia-smi status
pgrep nvidia-smi
ps -aux | grep nvidia-smi
获取其当前状态?
无论如何,希望这对您有所帮助。我会尝试卸载并重新安装或使用 sudo apt --fix-broken
尝试修复损坏的 packages/drivers.
干杯!
我通过在每次启动时执行
解决了这个问题sudo nvidia-smi -pm 1
以上命令启用持久化模式。这个问题已经影响 nvidia 驱动程序两年多了,但他们似乎对修复它不感兴趣。这似乎与电源管理问题有关,在 OS 启动一段时间后,如果 nvidia-persistenced
服务启用了 no-persistence-mode
选项,GPU 将节省电量,并且nvidia-smi
命令将挂起,等待它在设备上再次获得控制权