Google Dataproc pyspark 批处理作业的自定义容器映像

Custom Container Image for Google Dataproc pyspark Batch Job

我正在探索新引入的 google dataproc serverless. While sumitting job, I want to use custom images (wanted use --container-image 参数)这样我的所有 python 库和相关文件已经存在于服务器中,这样作业可以更快地执行。

我有 googled,但我只找到了这个 Dataproc custom images,它讨论了自定义 dataproc 图像。我没看到别的。

您能否确认上述自定义映像 link 是否正确,或者是否有任何其他我们需要用来构建容器 docker 映像的基础映像?

否,以上 link 适用于 GCE 集群上 Dataproc 的自定义 VM 映像。

Dataproc Serveless for Spark, please follow the guide 创建自定义容器映像。

附带说明一下,所有 Dataproc Serverless-related 文档都在 https://cloud.google.com/dataproc-serverless 网站上。