如何 schedule/trigger 在 Cloudera 中激发工作?
How to schedule/trigger spark jobs in Cloudera?
目前我们的项目在 MR 上,我们使用 Oozie 来编排我们的 MR 作业。现在我们正在转向 Spark,想知道在 CDH 集群上 schedule/trigger Spark Jobs 的推荐方法。请注意,CDH Oozie 不支持 Spark2 作业。所以请为此提供一个替代方案。
一旦您从 shell 提交 spark 作业,例如:
spark-submit <script_path> <arguments_list>
它被提交到 CDH 集群。您将立即能够看到 spark 作业及其在 Hue.This 中的进度是我们触发 spark 作业的方式。
此外,要编排一系列作业,您可以在其周围使用 shell 脚本包装器。或者,您可以使用 cron 作业来定时触发。
上次我查看时,Hue 在 Worlflow 编辑器中有一个 Spark 选项。如果 Cloudera 不支持它,我不确定它为什么会在那里......
CDH Oozie 确实支持纯 shell 脚本,但是您需要确保所有 NodeManagers 都将在本地服务器上提供 spark-submit
命令。
如果这不起作用,它还支持对 运行 JAR 的 Java 操作,因此您可以编写 Spark 脚本,所有脚本都以从那里加载任何配置的 main 方法开始
目前我们的项目在 MR 上,我们使用 Oozie 来编排我们的 MR 作业。现在我们正在转向 Spark,想知道在 CDH 集群上 schedule/trigger Spark Jobs 的推荐方法。请注意,CDH Oozie 不支持 Spark2 作业。所以请为此提供一个替代方案。
一旦您从 shell 提交 spark 作业,例如:
spark-submit <script_path> <arguments_list>
它被提交到 CDH 集群。您将立即能够看到 spark 作业及其在 Hue.This 中的进度是我们触发 spark 作业的方式。
此外,要编排一系列作业,您可以在其周围使用 shell 脚本包装器。或者,您可以使用 cron 作业来定时触发。
上次我查看时,Hue 在 Worlflow 编辑器中有一个 Spark 选项。如果 Cloudera 不支持它,我不确定它为什么会在那里......
CDH Oozie 确实支持纯 shell 脚本,但是您需要确保所有 NodeManagers 都将在本地服务器上提供 spark-submit
命令。
如果这不起作用,它还支持对 运行 JAR 的 Java 操作,因此您可以编写 Spark 脚本,所有脚本都以从那里加载任何配置的 main 方法开始