如何添加 EMR Spark 步骤?

How to add an EMR Spark Step?

根据docs

For Step type, choose Spark application.

但是在 Amazon EMR -> Clusters -> mycluster -> Steps -> Add step -> Step type 中,唯一的选项是:

我没有 Spark 应用程序选项,因为我创建了一个 Core Hadoop 集群。

当我创建集群时,在软件配置下,我应该选择 Spark,然后我会在步骤类型下有 Spark 应用程序选项。

添加EMR spark步骤有两种方式:

- 使用 command-runner.jar(自定义应用程序)

spark-submit --class org.apache.spark.examples.SparkPi /usr/lib/spark/examples/jars/spark-examples.jar 10

使用 aws cli 做同样的事情

aws emr add-steps --cluster-id j-xxxxxxxx --steps Name="add emr step to run spark",Jar="command-runner.jar",Args=[spark-submit,--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/examples/jars/spark-examples.jar,10]

- Spark 应用程序

您可以针对您的用例使用命令-runner.jar。对于步骤类型,让它成为您拥有的选项中的 Custom Jar。 查看此图片了解详细信息。

您可以阅读有关命令的更多信息-runner.jar command-runner-usage