GCP 上的 Kubeflow 管道错误 - 运行 没有结束

Kubeflow Pipelines error on GCP - Run doesn't end

使用 Jupyter Notebook 提交“运行”后,当我转到 Kubeflow 管道仪表板时,我可以看到我的“运行”已提交并 运行ning 但它没有即使在几个小时后也不会结束,也不显示任何日志。

我已经尝试 运行安装“DEMO XG-BOOST”,但同样的问题仍然存在,而且“运行”没有结束。

有人可以帮助我了解帐户设置是否有任何问题或我遗漏的任何其他问题,因为我已尝试检查文档和其他网站但无法理解为什么会发生这种情况。

请注意,此“运行”在使用 quicklabs(封面类型分类器)的 coursera 上运行良好(创建管道流)

error snapshot

使用以下版本: kfp 1.8.12 ; kfp 管道规范 0.1.14; kfp-server-api 1.8.1; Python3.7.12

如果上面还有我遗漏的任何其他信息,请告诉我,以便我分享可以帮助我们解决此问题的信息。

上述问题已解决。 “DEMO XG-BOOST”运行 未结束的部分已通过在创建管道时选择“使用委托执行程序”选项得到解决。

see the snapshot

当我们使用此设置启动管道时,它解决了问题,我们现在可以 运行 完成管道。

更多详情: 我们得到了 GCP 的支持,他们提到这个问题可能是由 GKE 集群最近的升级引起的,该集群删除了 docker 运行time (https://www.kubeflow.org/docs/components/pipelines/installation/choose-executor/#docker-executor). Namely, the Docker executor is the default workflow executor and depends on docker container runtime, which is deprecated on Kubernetes 1.20+. We were using a GKE cluster whose version was 1.21.6. Hence the issue. So, we used the documentation (https://www.kubeflow.org/docs/components/pipelines/installation/choose-executor/#migrate-to-emissary-executor) 并迁移到了 Emissary执行者(而不是 Docker)解决了我们的问题。