AWS 胶水 运行 模式

AWS glue run mode

最近一直在学习胶水,有一个问题突然冒出来了。在哪种模式下粘合作业 运行,这意味着我们 运行 在独立、集群或本地模式下激发作业。考虑到它也是一个 pyspark 作业

来自各种文档和我在 EMR 与 Glue 方面的经验:

  • A​​WS Glue 运行在 Apache Spark 无服务器环境中执行您的 ETL 作业。 AWS Glue 运行 在其自己的服务账户中配置和管理的虚拟资源上执行这些作业。 DPU 是首选。这是他们自己的工程,就像 AWS EMR 和 AWS Glue 一样,他们简化了事情。

  • A​​WS Glue 2.0 及更高版本不在 Apache YARN 上运行,因此 YARN 设置不适用。

  • A​​WS提供了自己的方法,StandAlone、YARN的概念不适用。

https://docs.aws.amazon.com/glue/latest/dg/how-it-works.html and https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-jobs-runs.html