如何提高 AWS Glue 的性能?

How to improve AWS Glue's performance?

我在 AWS 上有一个简单的工作需要超过 25 分钟。我将 DPU 的数量从 10 更改为 100(允许的最大值),该作业仍需要 13 分钟。

关于提高性能还有其他建议吗?

我注意到了同样的行为。

我的理解是作业时间包括启动 EMR 集群,这需要几分钟时间。所以如果需要……说 8 分钟(只是一个猜测),那么你的工作时间从 17 -> 5.

我们可以看看你的工作吗?有时简单可能性能不佳。我们发现使用 DynamicFrame.map 转换这样的简单操作确实很慢,您最好使用 tmp table 并使用 SQLContext

映射数据

除非 CPU 或内存是您现有作业的瓶颈,否则添加更多 DPU(即更多 CPU 和内存)不会显着改善您的作业。至少收益不会是线性的,即 DPU 增加 10 倍并不意味着作业会 运行 快 10 倍。

我建议您逐渐增加 DPU 的数量以查看性能提升,您会注意到在某个点之后添加更多 DPU 不会对性能产生重大影响,这可能是正确的数量您工作的 DPU。