AWS Glue 作业的预期 运行 时间

Expected Run time of AWS Glue job

我 运行 在 1mb 数据上粘合 AWS 的工作。完成需要 2.5 秒。

该作业使用了 Pyspark 框架。

因此,对于 1GB 的数据,该作业大约需要 2.5 * 1000 = 2500 秒才能完成。

但是当我 运行 处理 1GB 数据时只用了 20 秒。 这怎么可能?

默认情况下,Glue 作业配置为 运行 具有 10 个 DPU,其中每个 DPU 具有 16 GB RAM 和 4 个 vCore。因此,在您的情况下,即使您 运行 使用 2 个 DPU 完成作业,您仍然在利用集群。

而且执行时间并不像您计算的那样有效,还有很多其他因素 it.If 您想要阅读有关 Glue 平移资源的更多信息,然后参考 this link.