防止文件在 AWS Glue 中被多次处理

Prevent files from being processed multiple times in AWS Glue

我们正在使用胶水进行计算。数据流是这样发生的landing->raw->stage->curated->Redshift.

然而，当每天数据流向正确时 -> 数据恰好翻倍。

例如：

8 月 1 日：我有 100 条记录
8 月 2 日：我有 20 条记录

在 Redshift 中，我希望在 8 月 2 日结束时看到 120 条记录。相反，它得到了 220 条记录。请告诉我避免这种情况的方法。

想要在原始和阶段中保留基于运行日期的分区。

您似乎想要跟踪已经处理过的文件。您可以使用 Glue 的 job bookmarking 功能来防止这种情况发生。