在 Apache ORC 或 Apache Parquet 中将数据从 Aurora 迁移到 S3 的最简单方法

Easiest way to migrate data from Aurora to S3 in Apache ORC or Apache Parquet

雅典娜看起来不错。

要在我们的规模上使用它,我们需要使其更便宜、更高效,这意味着将我们的数据保存为 ORC 或 Parquet 格式。

将整个 Aurora 数据库迁移到 S3 并将其转换为其中一种格式的绝对最简单的方法是什么?

DMS 和 Data Pipeline 似乎可以帮助您实现减去转换步骤...

转换步骤可以用 python 完成,这里是一个示例:https://github.com/awslabs/aws-big-data-blog/tree/master/aws-blog-spark-parquet-conversion

查看这篇文章:http://docs.aws.amazon.com/athena/latest/ug/partitions.html

我会尝试 DMS 最初在 s3 中创建数据,然后使用上面的 python。