EMR activity 将数据管道用于 spark 作业

EMR activity using data pipeline for spark job

我正在尝试 运行 数据管道中用于 spark 作业的 Jar 文件,但我不确定在 EMR 步骤中我到底需要传递什么?

EMR 步骤是您描述您希望如何提交 spark jar 的地方。

创建新的数据管道时,您可以选择 "build using template" 选项,然后选择 "run job on an elastic MapReduce cluster"。

现在在 EmrActivity 中,您应该描述要提交的步骤(如果需要,您也可以 运行 多个步骤)。

您可以阅读此 AWS EMR Spark Step Guide 以了解什么是步骤。简而言之,它是您描述如何提交 spark 作业的地方。

请注意,由于某些不明原因,您需要在数据管道上将步骤中的空格替换为“,”。这是数据管道上的火花步骤 I 运行 的示例:

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>

我留下了一些配置,以便您了解在哪里使用它们,我用 <"text"> 替换了一些配置,以便您可以使用自己的信息进行切换