GCP Dataproc:Spark 作业的 CPU 和内存
GCP Dataproc : CPUs and Memory for Spark Job
我对 GCP 完全陌生。是否必须由用户管理为驱动程序和工作程序分配的内存量以及 运行 Dataproc 集群中 Spark 作业的 CPU 数量?如果是,Dataproc 使用的弹性有哪些方面?
谢谢。
通常您不需要,Dataproc 集群的资源由 YARN 管理,Spark 作业会自动配置为使用它们。特别是,默认情况下启用 Spark dynamic allocation。但是您的应用程序代码仍然很重要,例如,您需要指定适当的分区数。
我对 GCP 完全陌生。是否必须由用户管理为驱动程序和工作程序分配的内存量以及 运行 Dataproc 集群中 Spark 作业的 CPU 数量?如果是,Dataproc 使用的弹性有哪些方面?
谢谢。
通常您不需要,Dataproc 集群的资源由 YARN 管理,Spark 作业会自动配置为使用它们。特别是,默认情况下启用 Spark dynamic allocation。但是您的应用程序代码仍然很重要,例如,您需要指定适当的分区数。