在 AWS 中设置数据管道流
Setup Datapipeline Flow in AWS
问题陈述:我们有一个 Postgres RDS(由 AWS 管理),并且需要为 RDS 中的所有数据设置一个数据湖(在 S3 中)。数据应该以近乎实时的方式推送到 s3,解决方案还应该处理(更新、插入、删除操作)。有一个限制,我们无法使用 AWS Data Pipeline 服务,因为它在所需区域不可用。
有 AWS 博客描述了一个似乎满足您的要求或可以对其进行调整的解决方案:
这个 link 帮了大忙,在这里和那里稍作修改,它帮助我设置了管道。
https://aws.amazon.com/blogs/big-data/creating-a-source-to-lakehouse-data-replication-pipe-using-apache-hudi-aws-glue-aws-dms-and-amazon-redshift/
问题陈述:我们有一个 Postgres RDS(由 AWS 管理),并且需要为 RDS 中的所有数据设置一个数据湖(在 S3 中)。数据应该以近乎实时的方式推送到 s3,解决方案还应该处理(更新、插入、删除操作)。有一个限制,我们无法使用 AWS Data Pipeline 服务,因为它在所需区域不可用。
有 AWS 博客描述了一个似乎满足您的要求或可以对其进行调整的解决方案:
这个 link 帮了大忙,在这里和那里稍作修改,它帮助我设置了管道。 https://aws.amazon.com/blogs/big-data/creating-a-source-to-lakehouse-data-replication-pipe-using-apache-hudi-aws-glue-aws-dms-and-amazon-redshift/