Transfer/Replicate 数据定期从 AWS Documentdb 到 Google Cloud Big Query

Transfer/Replicate Data periodically from AWS Documentdb to Google Cloud Big Query

我们正在构建面向客户的应用程序。对于此应用程序,数据由第三方拥有的物联网设备捕获,并通过 API 调用从他们的服务器传输给我们。我们将此数据存储在我们的 AWS Documentdb 集群中。我们将用户应用程序连接到这个具有实时数据馈送要求的集群。注:数据为时序数据

事实是,为了长期数据存储和创建分析仪表板以与利益相关者共享,我们的数据治理人员要求我们每天 replicate/copy 将数据从 AWS Documentdb 集群传输到他们的 Google云平台->大查询。然后我们可以直接 运行 在 BigQuery 上查询以执行分析并将数据发送到 explorer 或 tableau 以创建仪表板。

我找不到任何直接的解决方案。欢迎任何想法、意见或建议。我如何实现或计划上述复制?我如何确保数据被有效复制——内存和定价?另外,不要打扰 AWS Documentdb 的性能,因为它支持我们面向用户的应用程序。

此解决方案需要一些自定义实现。您可以利用 Change Streams 并按时间间隔处理数据更改以发送到 Big Query,因此有一个数据复制机制供您 运行 分析。使用 Change Streams 的一个用例是使用 Redshift 进行分析,因此 Big Query 应该有类似的目的。

将更改流与 Amazon DocumentDB 结合使用: https://docs.aws.amazon.com/documentdb/latest/developerguide/change_streams.html

本文档还包含用于使用更改流事件的示例Python代码。