由于无法从 S3 下载脚本,Glue 作业失败

Glue Job failing due to inability to download script from S3

我正在创建一个 AWS Glue ETL 过程以将 CSV 数据从 S3 提取到 AWS Aurora 数据库中。

我已成功创建并运行 源文件和目标数据库 table 的爬虫。我还创建了 ETL 作业,执行了映射并保存了自动生成的脚本。所有(S3、DB、Glue)都位于同一区域。

当 运行 运行 ETL 作业时,它会出错并显示以下消息

fatal error: Connect timeout on endpoint URL: <REDACTED>
Error downloading script: fatal error: Connect timeout on endpoint URL: <REDACTED>

在 Cloudwatch 日志中,我有 2 条相关消息:

Specifying us-west-2 while copying script. 
S3 copy with region specified failed. Falling back to not specifying region. 

我试过以下方法:

如有任何其他想法或解决方案,我们将不胜感激!

我认为您用来启动 Glue 作业的 VPC 缺少 S3 端点。由于流量不会离开 AWS network,因此您的 Glue 作业的 VPC 内将无法访问互联网。因此,如果您想连接到 S3,则需要将其添加到您的 VPC。

参考this to know more and this以确保您正确配置了安全组