运行 在 yarn 中并行执行多个 hadoop 作业

Running multiple hadoop jobs in parallel in yarn

当我尝试在 EMR 集群中 运行 多个 hadoop 作业时,它们都 运行 一个接一个(我可以使用 yarn application -list 查看进度)。

  1. 有没有办法运行并行处理所有这些 hadoop 作业?
  2. 在一个步骤中传递多个 hadoop 作业会解决这个问题吗?如果是,如何在一个步骤中传递多个作业?

如果您将 HadoopActivity 与 FAIR 调度程序或容量调度程序一起使用,则可以运行 并行执行多个步骤。

https://aws.amazon.com/about-aws/whats-new/2015/06/run-parallel-hadoop-jobs-on-your-amazon-emr-cluster-using-aws-data-pipeline/