想要清楚了解 AWS Glue 的大局

Want to clear Big picture about the AWS Glue

我想从以下几个方面对 aws Glue 进行全面了解。

  1. AWS Glue 如何准备和配置其基础设施?然而它是无服务器的,但它是如何管理它的?

  2. 如何使用 apache spark 和 hadoop 一次解决如此多的 ETL 作业,几乎每个地区数百个 AWS Glue 客户的作业。

谢谢

AWS Glue 在下方使用 EMR。当新作业开始时,它会生成一个具有所需数量的执行程序(取决于配置的 DPU)的新集群。但是,为了缩短冷启动时间,他们为最常见数量的 DPU 提供了一个已配置的 EMR 集群缓冲区。为了管理这一切,他们有一套自动化服务来监控每个集群的状态,启动一个新集群等。