防止文件在 AWS Glue 中被多次处理
Prevent files from being processed multiple times in AWS Glue
我们正在使用胶水进行计算。数据流是这样发生的landing->raw->stage->curated->Redshift
.
然而,当每天数据流向正确时 -> 数据恰好翻倍。
例如:
- 8 月 1 日:我有 100 条记录
- 8 月 2 日:我有 20 条记录
在 Redshift 中,我希望在 8 月 2 日结束时看到 120 条记录。相反,它得到了 220 条记录。请告诉我避免这种情况的方法。
想要在原始和阶段中保留基于 运行 日期的分区。
您似乎想要跟踪已经处理过的文件。您可以使用 Glue 的 job bookmarking 功能来防止这种情况发生。
我们正在使用胶水进行计算。数据流是这样发生的landing->raw->stage->curated->Redshift
.
然而,当每天数据流向正确时 -> 数据恰好翻倍。
例如:
- 8 月 1 日:我有 100 条记录
- 8 月 2 日:我有 20 条记录
在 Redshift 中,我希望在 8 月 2 日结束时看到 120 条记录。相反,它得到了 220 条记录。请告诉我避免这种情况的方法。
想要在原始和阶段中保留基于 运行 日期的分区。
您似乎想要跟踪已经处理过的文件。您可以使用 Glue 的 job bookmarking 功能来防止这种情况发生。