自动化 HDInsight Spark 配置并按计划提交作业?

automate HDInsight Spark provisioning and submit jobs on Schedule?

我想自动提交 Spark 作业 system/program。 当然,系统需要在提交 Spark 作业之前先配置 HDInsight。 此外,系统按计划提交 spark 作业(例如晚上 7 点提交作业 1,晚上 9 点提交作业 2)

实现这些目标的最佳方法是什么?

c.f) 我能做什么

听起来 Azure 数据工厂可以满足你的需求。来自他们的网站:

"Data Factory allows you to create data-driven workflows to move data between both on-premises and cloud data stores as well as process/transform data using compute services such as Azure HDInsight and Azure Data Lake Analytics. After you create a pipeline that performs the action that you need, you can schedule it to run periodically (hourly, daily, weekly etc.)."

资源: https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq

听起来您想 运行 按计划自动启动您的 spark 作业。所以我觉得使用Oozie很适合你现在的场景,参考Azure官方教程Windows or Linux to know the concept about Oozie. Meanwhile, the tutorial Use time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs介绍了如何通过time trigger来实现。作为参考,hortonworks 线程详细显示了 运行 从 HDP 上的 Oozie Workflow 执行 Spark 作业的步骤(Azure HDInsight 基于 HDP)。

希望对您有所帮助。

您可以使用 .Net SDK or Powershell 自动配置 HDInsight 实例。

我会按照说明使用 Livy 提交 Spark 作业 here