GCP 上的 Kubeflow 管道错误 - 运行 没有结束

Kubeflow Pipelines error on GCP - Run doesn't end

使用 Jupyter Notebook 提交“运行”后,当我转到 Kubeflow 管道仪表板时,我可以看到我的“运行”已提交并 运行ning 但它没有即使在几个小时后也不会结束,也不显示任何日志。

我已经尝试 运行安装“DEMO XG-BOOST”,但同样的问题仍然存在,而且“运行”没有结束。


请注意,此“运行”在使用 quicklabs(封面类型分类器)的 coursera 上运行良好(创建管道流)

error snapshot

使用以下版本: kfp 1.8.12 ; kfp 管道规范 0.1.14; kfp-server-api 1.8.1; Python3.7.12


上述问题已解决。 “DEMO XG-BOOST”运行 未结束的部分已通过在创建管道时选择“使用委托执行程序”选项得到解决。

see the snapshot

当我们使用此设置启动管道时,它解决了问题,我们现在可以 运行 完成管道。

更多详情: 我们得到了 GCP 的支持,他们提到这个问题可能是由 GKE 集群最近的升级引起的,该集群删除了 docker 运行time (https://www.kubeflow.org/docs/components/pipelines/installation/choose-executor/#docker-executor). Namely, the Docker executor is the default workflow executor and depends on docker container runtime, which is deprecated on Kubernetes 1.20+. We were using a GKE cluster whose version was 1.21.6. Hence the issue. So, we used the documentation (https://www.kubeflow.org/docs/components/pipelines/installation/choose-executor/#migrate-to-emissary-executor) 并迁移到了 Emissary执行者(而不是 Docker)解决了我们的问题。