kubeflow 部署 gcp 端点控制器失败

kubeflow deploy gcp endpoints controller fails

我正在尝试使用官方指南在 gcp 上部署 kubeflow https://www.kubeflow.org/docs/distributions/gke/deploy/deploy-cli/

我试了三次,但端点控制器似乎有问题。检查时:kubectl -n kubeflow get all

所有 pods 都是 运行 除了

    NAME                                                             READY   STATUS             RESTARTS   AGE
pod/admission-webhook-deployment-667bd68d94                1/1     Running            
pod/cache-deployer-deployment-75ccdc98b4                   2/2     Running            
pod/cache-server-56f78bf64b                                2/2     Running            
pod/centraldashboard-5fdbd9b744                            1/1     Running            
pod/cloud-endpoints-controller-5f7dbc6fc8                  0/1     ImagePullBackOff

Pod 描述说它无法解析引用“gcr.io/cloud-solutions-group/cloud-endpoints-controller:0.2.1”:意外状态代码 [manifests 0.2.1]: 403 Forbidden

我是 kubeflow 的新手,但尽管重试了 3 次,它总是导致同样的问题。

您可以克隆存储库并自行构建映像,然后将其推送到您的容器注册表。 这是在官方图像恢复之前解决此问题的一种解决方法。

git clone https://github.com/jlewi/cloud-endpoints-controller.git
cd cloud-endpoints-controller
git checkout 0.2.1
docker build . -t <YOUR DOCKER REGISTRY>/cloud-endpoints-controller:0.2.1
docker push <YOUR DOCKER REGISTRY>/cloud-endpoints-controller:0.2.1

这将使用您的 pod 规范中的新图像。

紧急发布:https://github.com/kubeflow/gcp-blueprints/releases/tag/v1.4.1,您现在可以使用 v1.4.1 标签进行部署。

----原创-----

感谢您发布此问题!我在 https://github.com/kubeflow/gcp-blueprints/issues/343#issuecomment-1028488756 中发布了缓解解决方案。我计划在即将发布的版本中解决这个问题。