Impala 的 ETL 到 EMR

ETL onto EMR for Impala

我们有一个 EMR 集群 运行 Impala。

我们在 DynamoDB 和 S3 中有大量数据。

从 Dynamo 获取数据到我们的 HDFS EMR 集群的 best/recomended 方法是什么(这样我可以在之后将它放入 Impala)?我是否应该编写一个 python 脚本来导入 boto 和一些 HDFS 库来完成它,我应该直接学习 PIG,还是有更好的解决方案?

我将 alteryx 用于 ETL。我会推荐使用它。它也有非常酷的分析包。

我的建议是采用较小的学习曲线并熟悉 AWS Data Pipe。就其本身而言,这是一项非常好的服务;最好的事情是它是完全托管的,并且互操作性非常好。

因此,无需额外的第 3 方工具 [ETL] 套件,并且无需 运行 额外的 EC2 实例;您可以link,安排,将数据从 DynamoDB 传输到 EMR。

这个link有必要的点点滴滴的信息;但您可以从各处汲取灵感,将 DynamoDB 创建为 EMR link [http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part2.html]