EMR activity 将数据管道用于 spark 作业

Question

我正在尝试运行数据管道中用于 spark 作业的 Jar 文件，但我不确定在 EMR 步骤中我到底需要传递什么？

Answer 1

EMR 步骤是您描述您希望如何提交 spark jar 的地方。

创建新的数据管道时，您可以选择 "build using template" 选项，然后选择 "run job on an elastic MapReduce cluster"。

现在在 EmrActivity 中，您应该描述要提交的步骤（如果需要，您也可以运行多个步骤）。

您可以阅读此 AWS EMR Spark Step Guide 以了解什么是步骤。简而言之，它是您描述如何提交 spark 作业的地方。

请注意，由于某些不明原因，您需要在数据管道上将步骤中的空格替换为“,”。这是数据管道上的火花步骤 I 运行的示例：

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>

我留下了一些配置，以便您了解在哪里使用它们，我用 <"text"> 替换了一些配置，以便您可以使用自己的信息进行切换

EMR activity 将数据管道用于 spark 作业

EMR activity using data pipeline for spark job

emr

amazon-data-pipeline