如何提高 AWS Glue 的性能?
How to improve AWS Glue's performance?
我在 AWS 上有一个简单的工作需要超过 25 分钟。我将 DPU 的数量从 10 更改为 100(允许的最大值),该作业仍需要 13 分钟。
关于提高性能还有其他建议吗?
我注意到了同样的行为。
我的理解是作业时间包括启动 EMR 集群,这需要几分钟时间。所以如果需要……说 8 分钟(只是一个猜测),那么你的工作时间从 17 -> 5.
我们可以看看你的工作吗?有时简单可能性能不佳。我们发现使用 DynamicFrame.map 转换这样的简单操作确实很慢,您最好使用 tmp table 并使用 SQLContext
映射数据
除非 CPU 或内存是您现有作业的瓶颈,否则添加更多 DPU(即更多 CPU 和内存)不会显着改善您的作业。至少收益不会是线性的,即 DPU 增加 10 倍并不意味着作业会 运行 快 10 倍。
我建议您逐渐增加 DPU 的数量以查看性能提升,您会注意到在某个点之后添加更多 DPU 不会对性能产生重大影响,这可能是正确的数量您工作的 DPU。
我在 AWS 上有一个简单的工作需要超过 25 分钟。我将 DPU 的数量从 10 更改为 100(允许的最大值),该作业仍需要 13 分钟。
关于提高性能还有其他建议吗?
我注意到了同样的行为。
我的理解是作业时间包括启动 EMR 集群,这需要几分钟时间。所以如果需要……说 8 分钟(只是一个猜测),那么你的工作时间从 17 -> 5.
我们可以看看你的工作吗?有时简单可能性能不佳。我们发现使用 DynamicFrame.map 转换这样的简单操作确实很慢,您最好使用 tmp table 并使用 SQLContext
映射数据除非 CPU 或内存是您现有作业的瓶颈,否则添加更多 DPU(即更多 CPU 和内存)不会显着改善您的作业。至少收益不会是线性的,即 DPU 增加 10 倍并不意味着作业会 运行 快 10 倍。
我建议您逐渐增加 DPU 的数量以查看性能提升,您会注意到在某个点之后添加更多 DPU 不会对性能产生重大影响,这可能是正确的数量您工作的 DPU。