Google 数据实验室错误安装 Nvidia 驱动程序并启动 docker 容器

Google datalab errors install Nvidia driver and starting docker container

我正在关注 https://cloud.google.com/datalab/docs/quickstart (datalab beta create-gpu [datalab-instance-name])。实例已创建,但 docker 容器无法启动:

$docker ps -a:

CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES e44d71c07f6e gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 13 minutes ago Exited (2) 12 minutes ago awesome_brattain 56e54c3d3f6d gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 14 minutes ago Exited (2) 13 minutes ago naughty_montalcini

难以阅读,但它们都是 STATUS=Exited

看到的第一个不好的地方:

$ sudo journalctl --since yesterday -fu docker.service出现奇怪的错误: Apr 22 20:53:30 seth2 dockerd[668]: time="2018-04-22T20:53:30.717669594Z" level=error msg="containerd: start container" error="oci runtime error: container_linux.go:247: starting container process caused \"chdir to cwd (\\"/content/datalab/notebooks\\") set in config.json failed: no such file or directory\"\n" id=4795b951f1dbae3a23dae67c2d5aaa7a8bc61e1f4fd6ec58814d241da75b245f

当然,没有 /content 目录。 gcloud 将磁盘列为就绪。

我看到的第二个坏事:

$ docker logs e44d71c07f6e 到最后看起来还不错:

[INFO 2018-04-22 20:56:33 UTC] Running Nvidia installer /usr/local/nvidia / NVIDIA-Linux-x86_64-384.81.run: 1: NVIDIA-Linux-x86_64-384.81.run: Syntax error: redirection unexpected s

我已经准备好将此 Beta 功能称为“垃圾箱大火”,至少对于我这样的 GCP 新手来说是这样,并尝试使用其他提供商。

有人有什么想法可以尝试吗?在此先感谢您。

对不起,你撞到了这个。

这是一个我们已经 a fix 解决的新错误,但该修复程序尚未发布(我们的发布过程至少需要一周时间)。

问题是最近对 Container Optimized OS 工具的更改破坏了对旧版 Nvidia 驱动程序的支持。

解决方法是更新 Datalab 实例使用的驱动程序版本。

在修复程序发布之前,您可以通过下载 the source code for the tool 和 运行 那个版本而不是已发布的版本来解决这个问题。