GCP Dataproc 基础 Docker 图片

GCP Dataproc Base Docker Image

有谁知道我在哪里可以找到 GCP 数据处理的 docker 图像?我使用过 dataproc 集群,发现它们非常好,但我想在本地开发,只有在我准备好处理大型工作时才将我的计算迁移到云端。我发现了一些 docker 图像可与 pyspark 一起使用,但我希望获得像 GCP dataproc 一样流畅的图像。

您可以在此 cloud-dataproc Container Registry, and these images are built on top of the Compute Image OS 中找到基本图像。您可以从那里使用 pull 命令在本地获取 Dataproc 基础映像。

您可以使用spark文件夹下的基础镜像。可以使用以下命令拉取所需的基础映像,并在 Dataproc 映像上 运行 启动一个 spark 作业。我试验了 Dataproc 2.0 图像,但可以在同一文件夹中找到其他版本。

# Pulling the required image
docker pull gcr.io/cloud-dataproc/spark/dataproc_2.0:preview-0.3

# Sample PySpark job
sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --master local[4] /home/sample-spark-app/pi.py

# Sample Spark (Java API) job
sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --class "JavaSparkPi" --master local[4] /home/sample-spark-app/target/simple-project-1.0.jar

如果您想在基本图像之上使用其他功能,请查看 gcr.io/cloud-dataproc 下的其他 spark 图像。