Google 数据实验室错误安装 Nvidia 驱动程序并启动 docker 容器
Google datalab errors install Nvidia driver and starting docker container
我正在关注 https://cloud.google.com/datalab/docs/quickstart (datalab beta create-gpu [datalab-instance-name]
)。实例已创建,但 docker 容器无法启动:
$docker ps -a
:
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
e44d71c07f6e gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 13 minutes ago Exited (2) 12 minutes ago awesome_brattain
56e54c3d3f6d gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 14 minutes ago Exited (2) 13 minutes ago naughty_montalcini
难以阅读,但它们都是 STATUS=Exited
看到的第一个不好的地方:
$ sudo journalctl --since yesterday -fu docker.service
出现奇怪的错误:
Apr 22 20:53:30 seth2 dockerd[668]: time="2018-04-22T20:53:30.717669594Z" level=error msg="containerd: start container" error="oci runtime error: container_linux.go:247: starting container process caused \"chdir to cwd (\\"/content/datalab/notebooks\\") set in config.json failed: no such file or directory\"\n" id=4795b951f1dbae3a23dae67c2d5aaa7a8bc61e1f4fd6ec58814d241da75b245f
当然,没有 /content 目录。 gcloud 将磁盘列为就绪。
我看到的第二个坏事:
$ docker logs e44d71c07f6e
到最后看起来还不错:
[INFO 2018-04-22 20:56:33 UTC] Running Nvidia installer
/usr/local/nvidia /
NVIDIA-Linux-x86_64-384.81.run: 1: NVIDIA-Linux-x86_64-384.81.run: Syntax error: redirection unexpected
s
我已经准备好将此 Beta 功能称为“垃圾箱大火”,至少对于我这样的 GCP 新手来说是这样,并尝试使用其他提供商。
有人有什么想法可以尝试吗?在此先感谢您。
对不起,你撞到了这个。
这是一个我们已经 a fix 解决的新错误,但该修复程序尚未发布(我们的发布过程至少需要一周时间)。
问题是最近对 Container Optimized OS 工具的更改破坏了对旧版 Nvidia 驱动程序的支持。
解决方法是更新 Datalab 实例使用的驱动程序版本。
在修复程序发布之前,您可以通过下载 the source code for the tool 和 运行 那个版本而不是已发布的版本来解决这个问题。
我正在关注 https://cloud.google.com/datalab/docs/quickstart (datalab beta create-gpu [datalab-instance-name]
)。实例已创建,但 docker 容器无法启动:
$docker ps -a
:
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
e44d71c07f6e gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 13 minutes ago Exited (2) 12 minutes ago awesome_brattain
56e54c3d3f6d gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 14 minutes ago Exited (2) 13 minutes ago naughty_montalcini
难以阅读,但它们都是 STATUS=Exited
看到的第一个不好的地方:
$ sudo journalctl --since yesterday -fu docker.service
出现奇怪的错误:
Apr 22 20:53:30 seth2 dockerd[668]: time="2018-04-22T20:53:30.717669594Z" level=error msg="containerd: start container" error="oci runtime error: container_linux.go:247: starting container process caused \"chdir to cwd (\\"/content/datalab/notebooks\\") set in config.json failed: no such file or directory\"\n" id=4795b951f1dbae3a23dae67c2d5aaa7a8bc61e1f4fd6ec58814d241da75b245f
当然,没有 /content 目录。 gcloud 将磁盘列为就绪。
我看到的第二个坏事:
$ docker logs e44d71c07f6e
到最后看起来还不错:
[INFO 2018-04-22 20:56:33 UTC] Running Nvidia installer
/usr/local/nvidia /
NVIDIA-Linux-x86_64-384.81.run: 1: NVIDIA-Linux-x86_64-384.81.run: Syntax error: redirection unexpected
s
我已经准备好将此 Beta 功能称为“垃圾箱大火”,至少对于我这样的 GCP 新手来说是这样,并尝试使用其他提供商。
有人有什么想法可以尝试吗?在此先感谢您。
对不起,你撞到了这个。
这是一个我们已经 a fix 解决的新错误,但该修复程序尚未发布(我们的发布过程至少需要一周时间)。
问题是最近对 Container Optimized OS 工具的更改破坏了对旧版 Nvidia 驱动程序的支持。
解决方法是更新 Datalab 实例使用的驱动程序版本。
在修复程序发布之前,您可以通过下载 the source code for the tool 和 运行 那个版本而不是已发布的版本来解决这个问题。