ETL Glue 增量或增量逻辑

ETL Glue delta or incremental logic

在我们需要每天增加负载的项目中,我们使用 Glue 来实现 ETL。我们正在使用 Glue 获得重复项或数据加倍。

pipeline flow: Ingestion Zone, Raw Zone, Curated zone, consumption zone.
History: 1000 records. Below dates on updates and inserts

1 月 11 日结束 运行,I would like to see my total records of 1100 records as I'm upserting the data in rawtocurated zone。但是,我在精选区域 中获得了双倍的记录。数据以 运行 日期为基础进行分区。比如 2020/01/10/data.csv 和 2020/01/11/data.csv

我应该做哪些更改才能避免在消费区中只看到增量记录(或)增量记录?

根据我对问题陈述的理解:胶水作业书签功能与元数据目录表一起使用,以确保只处理新数据。 很少查询:

  1. 您的精选区域是否构建在 s3 或提供的任何其他 RDS 服务之上?
  2. 是直接更新还是 SCD-2 数据转换?
  3. 你有没有机会 reset/paused/disable 工作书签?
  4. 如果您说数据根据 运行 日期进行分区,那么分区适用于摄取层 [S3 存储桶下的多个日期特定文件夹和以 parquet 格式维护的数据] 或目标策划层?

即使这不能解决您的问题,我还是建议您使用 pyspark/scala 封装您的处理逻辑

来编写自定义 spark 代码