ETL Glue 增量或增量逻辑

Question

在我们需要每天增加负载的项目中，我们使用 Glue 来实现 ETL。我们正在使用 Glue 获得重复项或数据加倍。

pipeline flow: Ingestion Zone, Raw Zone, Curated zone, consumption zone.
History: 1000 records. Below dates on updates and inserts

1 月 11 日结束运行，I would like to see my total records of 1100 records as I'm upserting the data in rawtocurated zone。但是，我在精选区域 中获得了双倍的记录。数据以运行日期为基础进行分区。比如 2020/01/10/data.csv 和 2020/01/11/data.csv

我应该做哪些更改才能避免在消费区中只看到增量记录（或）增量记录？

Answer 1

根据我对问题陈述的理解：胶水作业书签功能与元数据目录表一起使用，以确保只处理新数据。很少查询：

您的精选区域是否构建在 s3 或提供的任何其他 RDS 服务之上？
是直接更新还是 SCD-2 数据转换？
你有没有机会 reset/paused/disable 工作书签？
如果您说数据根据运行日期进行分区，那么分区适用于摄取层 [S3 存储桶下的多个日期特定文件夹和以 parquet 格式维护的数据] 或目标策划层？

即使这不能解决您的问题，我还是建议您使用 pyspark/scala 封装您的处理逻辑

来编写自定义 spark 代码

ETL Glue 增量或增量逻辑

ETL Glue delta or incremental logic

etl

amazon-web-services

apache-spark-sql

pyspark

aws-glue