AWS Glue redshift_tmp_dir 规模不断扩大

AWS Glue redshift_tmp_dir growing in size

据我了解,在将数据推送到 Redshift 时,Glue 将数据写入 'temp' S3 位置,然后从那里使用 Redshift 的 COPY。

我最近扫描了我们的 S3 存储桶,并注意到我们的一项工作用于 redshift_tmp_dir 的路径的大小正在增长,而且不是微不足道!

开发人员是否应该在工作结束时清除该位置? 我想我假设 Glue 进程处理了所有事情(我猜是天真的!)

最简单的方法是在 S3 中设置生命周期规则以自动清除旧文件。

找到s3 bucket,点击“管理”,你可以添加一个规则,在X天后删除文件。