在配置节点时防止 Kops 替换 docker 安装

Prevent Kops from replacing docker installation when provisioning nodes

我使用为支持 GPU 的 EC2 实例上的机器学习配置的自定义图像 (AMI)。

这意味着 cudalibcudnn6nvidia-docker 等都已正确设置。

然而,当 Kops 从这些 AMI 启动新节点时(我使用 cluster-autoscaler),它会覆盖我的正确设置 docker。

我该如何预防?

现在我 运行 在启动时使用自定义脚本重新安装 nvidia-docker 正确,但这显然不理想。

Kops 只会安装 docker 如果它希望使用的版本与节点上已安装的版本不同。

请注意,Kops 将 降级 docker if the installed version is higher than what it expects!

所以我的问题的解决方案是预装一个与 spec.docker.version 相匹配的版本。

为此,我们必须将 docker 降级为 17.03.2 并将 nvidia-docker 降级为 2.0.3+docker17.03.2-1