如何使用 AWS 数据管道并行 运行 多个 Hive 活动?

How to run multiple Hive activities in parallel using AWS data pipeline?

我们想使用 AWS 数据管道来自动化数据摄取过程。在我们的摄取过程中,我们主要将 CSV 文件复制到 S3 存储桶中,然后 运行 Hive 查询超过 100 个不同的表。

我们想要创建一个管道,我们将能够在其中处理所有 100 个表。

我想知道我们是否可以 运行 并行执行多个 Hive 活动和 S3 复制活动?如果管道活动 运行 串行或并行,我无法在 AWS 文档中找到此信息。

您可以使用从 Java 可执行文件调用配置单元查询的 HadoopActivity。 AWS Data Pipeline 支持并行执行 HadoopActivities。

文档:http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hadoopactivity.html