如何使用 AWS Glue 支持 CDC

How to support CDC with AWS Glue

我们正在将 AWS Glue 的 Change Data Capture (CDC) 功能与 SnapLogic 和 Informatica 进行比较。 AWS Glue 能够检测 数据结构 中的变化。

我正在寻找有关如何检测数据变化(即修改后的数据或新数据)的具体示例。有人使用 AWS Glue 仅提取 new/modified 条记录吗?如果可以,怎么做?

在 glue 中实现 CDC 的两个选项是 1. 使用源数据库中的审计列并将其传递到 sql 以提取数据 2.如果数据不超过几十万条记录,则提取完整数据并使用spark sql.

进行比较