AWS MySQL 到 GCP BigQuery 数据迁移
AWS MySQL to GCP BigQuery data migration
我正计划将数据从 AWS MySQL 实例迁移到 GCP BigQuery。我不想迁移每个 MySQL 数据库,因为最后我想使用 BigQuery 创建一个数据仓库。
将 AWS MySQL 数据库作为 csv/json/avro 导出到 S3 存储桶,然后转移到 GCP 存储桶是一个不错的选择吗?此数据管道的最佳做法是什么?
如果这是 MySQL 到 MySQL 的迁移;还有其他可能的选择。但在这种情况下,您提到的选项是完美的。此外,请记住您的 MySQL 数据库将不断更新。因此,您的目标数据库可能会遗漏一些记录。因为它不是实时数据库转移.
您提出的导出到 S3 文件的建议应该没问题,要导出文件,您可以利用 AWS Database Migration Service
使用该服务,您可以一次性导出到 S3,也可以使用更改数据捕获进行增量导出。不幸的是,由于 BigQuery 并非真正设计用于处理其表上的更改,因此实施 CDC 可能有点麻烦(尽管完全可行)。您需要考虑跨提供商传输数据的成本。
另一个对您来说更容易的选择是使用相同的 AWS 数据库迁移服务 move data directly to Amazon Redshift。
在这种情况下,您将自动获取更改数据捕获,因此您无需担心任何事情。 RedShift 是构建数据仓库的绝佳工具。
如果您出于任何原因不想使用 RedShift,并且更喜欢完全无服务器的解决方案,那么您可以轻松地从数据库中使用 AWS Glue Catalog to read 并导出到 AWS Athena。
基于 AWS 的解决方案的妙处在于,所有内容都紧密集成,您可以使用相同的 account/users 进行计费、IAM、监控...并且由于您在单个提供商内移动数据,因此没有额外的网络费用,没有延迟,安全问题可能更少。
我正计划将数据从 AWS MySQL 实例迁移到 GCP BigQuery。我不想迁移每个 MySQL 数据库,因为最后我想使用 BigQuery 创建一个数据仓库。
将 AWS MySQL 数据库作为 csv/json/avro 导出到 S3 存储桶,然后转移到 GCP 存储桶是一个不错的选择吗?此数据管道的最佳做法是什么?
如果这是 MySQL 到 MySQL 的迁移;还有其他可能的选择。但在这种情况下,您提到的选项是完美的。此外,请记住您的 MySQL 数据库将不断更新。因此,您的目标数据库可能会遗漏一些记录。因为它不是实时数据库转移.
您提出的导出到 S3 文件的建议应该没问题,要导出文件,您可以利用 AWS Database Migration Service
使用该服务,您可以一次性导出到 S3,也可以使用更改数据捕获进行增量导出。不幸的是,由于 BigQuery 并非真正设计用于处理其表上的更改,因此实施 CDC 可能有点麻烦(尽管完全可行)。您需要考虑跨提供商传输数据的成本。
另一个对您来说更容易的选择是使用相同的 AWS 数据库迁移服务 move data directly to Amazon Redshift。
在这种情况下,您将自动获取更改数据捕获,因此您无需担心任何事情。 RedShift 是构建数据仓库的绝佳工具。
如果您出于任何原因不想使用 RedShift,并且更喜欢完全无服务器的解决方案,那么您可以轻松地从数据库中使用 AWS Glue Catalog to read 并导出到 AWS Athena。
基于 AWS 的解决方案的妙处在于,所有内容都紧密集成,您可以使用相同的 account/users 进行计费、IAM、监控...并且由于您在单个提供商内移动数据,因此没有额外的网络费用,没有延迟,安全问题可能更少。