防止文件在 AWS Glue 中被多次处理

Prevent files from being processed multiple times in AWS Glue

我们正在使用胶水进行计算。数据流是这样发生的landing->raw->stage->curated->Redshift.

然而,当每天数据流向正确时 -> 数据恰好翻倍。

例如:

在 Redshift 中,我希望在 8 月 2 日结束时看到 120 条记录。相反,它得到了 220 条记录。请告诉我避免这种情况的方法。

想要在原始和阶段中保留基于 运行 日期的分区。

您似乎想要跟踪已经处理过的文件。您可以使用 Glue 的 job bookmarking 功能来防止这种情况发生。