AWS Glue 什么是 ETL 的最佳数据大小

AWS Glue what is optimal data size for ETL

我计划将 AWS Glue 用于我的 ETL 过程,并已编写自定义 python 代码并 运行 作为 AWS Glue 作业。

我在 AWS Glue 文档中发现,默认情况下,AWS Glue 为每个 job.Is 分配 10 个 DPU,其中有一个作业的最大 DPU 限制,(我在 LIMITs 部分没有看到任何内容,即,每个作业的最大 DPU 限制)。

或者是否有以 MB / GB 为单位的最佳数据大小,建议避免任何内存不足错误问题。请说明。

谢谢。

根据 Glue API 文档,每个作业执行最多可以分配 100 个 DPU。

AllocatedCapacity – Number (integer). The number of AWS Glue data processing units (DPUs) allocated to runs of this job. From 2 to 100 DPUs can be allocated; the default is 10. A DPU is a relative measure of processing power that consists of 4 vCPUs of compute capacity and 16 GB of memory. For more information, see the AWS Glue pricing page.

Python Glue 作业(OP 计划实施)的限制不同,您最多可以拥有 1 个 DPU。以下是 official documentation(截至 2019 年 8 月)

The maximum number of AWS Glue data processing units (DPUs) that can be allocated when this job runs. A DPU is a relative measure of processing power that consists of 4 vCPUs of compute capacity and 16 GB of memory. For more information, see the AWS Glue pricing page.

You can set the value to 0.0625 or 1. The default is 0.0625.