在长 运行 EMR 集群上设置 AWS Data Pipeline

Setup AWS Data Pipeline on long running EMR cluster

如果我想要长 运行 EMR 集群,然后我想设置数据管道在该集群上做一些事情,我该怎么做?

我必须在这个 EMR 集群上安装 Task Runner 吗?或者可能会预装 Task Runner?或者也许还有其他简单的方法?

任务运行程序不会在 EMR 中出现 pre-installed。它必须手动配置,请按照这些 steps 在 EMR 集群中安装 Task Runner。

在启动 Task Runner 进程时,为 --workerGroup 提供一个名称。此名称将是此 EMR 集群的标识符,可用于 Datapipeline 活动中的 WorkerGroup 字段。