具有 Ubuntu 16.04 和 4.4.0-137 通用内核的 NVIDIA DevBox 随机重启并在一夜之间自动关闭

NVIDIA DevBox with Ubuntu 16.04 and 4.4.0-137-generic kernel randomly reboots and automatically shuts down overnight

我最近说过使用具有 ASUS bios 的 NVIDIA DevBox,以及上面提到的内核版本和 ubuntu 版本。由于某些原因,这台机器不能真正开着过夜,因为它通常与其他笔记本电脑 and/or 计算机一样:如果你可以把它开着,它会在几分钟后自行锁定 and/or进入睡眠模式 - 第二天,一旦您移动鼠标或在键盘上输入内容,计算机 'unsuspends' 或醒来,您的所有程序都打开了,运行 就像您离开它们一样前一天。

由于某些奇怪的原因,这台机器没有发生这种情况。在我之前有一个用户大约一年没有接触过机器,所以 he/she 可能已经做了一些关于省电的配置,但是当我检查时一切看起来都很好我机器上的电源选项(我有暂停——1 小时,锁定 1 小时)。我想我注意到的一件有趣的事是,如果我午饭后回来并且机器是 locked/suspended,它会毫无问题地回到会话中,但如果我把它放在一夜之间,那么我第二天就会到达并且机器已自动关闭。建筑物被锁定,因此其他人不可能在一夜之间物理按下电源关闭按钮,而且我还检查了其他用户的历史命令(我们都有管理员权限,而且他不使用计算机)以检查远程访问是否关闭,也不会弹出。

我在几个地方读到这可能是由于电源不良或损坏导致的发热问题,但我如何检查是否是这种情况?我有 psensor 应用程序,但它似乎只能实时记录温度,而不会将它们保存到文件中,我可以在其中检查任何显卡(有 4 个)或主板的温度。

还有什么方法可以诊断机器自动关机? 我怎么知道是发热问题还是电源故障?或者可能是内核问题?这台机器目前没有安装真正的密集程序(它几乎是新的),除了我安装经验丰富的 NVIDIA 驱动程序,所以也许我可以考虑重新安装 Ubuntu? -- 尽管如果存在硬件问题,这几乎毫无意义

其他详情:

NVIDIA 驱动程序已正确安装。 当我强制执行以下命令时,驱动程序被窃听并且机器响应非常糟糕并且机器连续 2 天开启(这对这些机器来说应该是轻而易举的),直到它很难开启超过 5 分钟之后半夜连续 2 次随机重启:

$ unset autologoff

我不得不稍后正确地重新安装驱动程序(并重新设置自动日志选项),并且系统返回到它的当前状态,如果它没有做更多的事情,它 "needs" 会自行关闭超过 24 小时(没有做任何事情,因为它没有收到人工输入,但后端进程可能仍然 运行)。

在发现机器给我这个错误后,我在启动时添加了pci=noaerhttps://askubuntu.com/questions/771899/pcie-bus-error-severity-corrected

输出:

$ cat /proc/cmdline

BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7

通过将系统上传到 Ubuntu 18.04 解决了问题。从未找到错误的根源,但我怀疑它与内核可能与显卡、BIOS 和 16.04 Ubuntu 版本不匹配有关。