如何 schedule/trigger 在 Cloudera 中激发工作?

How to schedule/trigger spark jobs in Cloudera?

目前我们的项目在 MR 上,我们使用 Oozie 来编排我们的 MR 作业。现在我们正在转向 Spark,想知道在 CDH 集群上 schedule/trigger Spark Jobs 的推荐方法。请注意,CDH Oozie 不支持 Spark2 作业。所以请为此提供一个替代方案。

一旦您从 shell 提交 spark 作业,例如: spark-submit <script_path> <arguments_list> 它被提交到 CDH 集群。您将立即能够看到 spark 作业及其在 Hue.This 中的进度是我们触发 spark 作业的方式。

此外,要编排一系列作业,您可以在其周围使用 shell 脚本包装器。或者,您可以使用 cron 作业来定时触发。

上次我查看时,Hue 在 Worlflow 编辑器中有一个 Spark 选项。如果 Cloudera 不支持它,我不确定它为什么会在那里......

CDH Oozie 确实支持纯 shell 脚本,但是您需要确保所有 NodeManagers 都将在本地服务器上提供 spark-submit 命令。

如果这不起作用,它还支持对 运行 JAR 的 Java 操作,因此您可以编写 Spark 脚本,所有脚本都以从那里加载任何配置的 main 方法开始