GCP Dataproc:Spark 作业的 CPU 和内存

GCP Dataproc : CPUs and Memory for Spark Job

我对 GCP 完全陌生。是否必须由用户管理为驱动程序和工作程序分配的内存量以及 运行 Dataproc 集群中 Spark 作业的 CPU 数量?如果是,Dataproc 使用的弹性有哪些方面?

谢谢。

通常您不需要,Dataproc 集群的资源由 YARN 管理,Spark 作业会自动配置为使用它们。特别是,默认情况下启用 Spark dynamic allocation。但是您的应用程序代码仍然很重要,例如,您需要指定适当的分区数。