Amazon EMR 上的工作链?

Job chaining on Amazon EMR?

我需要做 2 个链式 M/R 作业,所以我需要使用第一个作业的输出作为第二个作业的输入。

如何在 EMR 上实现此目的?

您可以添加多个作业作为步骤。并使用 S3 存储中间结果。第二个mapreduce作业可以从S3读取中间结果,继续完成工作。