自动化 HDInsight Spark 配置并按计划提交作业?
automate HDInsight Spark provisioning and submit jobs on Schedule?
我想自动提交 Spark 作业 system/program。
当然,系统需要在提交 Spark 作业之前先配置 HDInsight。
此外,系统按计划提交 spark 作业(例如晚上 7 点提交作业 1,晚上 9 点提交作业 2)
实现这些目标的最佳方法是什么?
c.f) 我能做什么
- 使用 Powershell 配置 HDIsinght
- 使用 Livy 提交 Spark 作业
听起来 Azure 数据工厂可以满足你的需求。来自他们的网站:
"Data Factory allows you to create data-driven workflows to move data between both on-premises and cloud data stores as well as process/transform data using compute services such as Azure HDInsight and Azure Data Lake Analytics. After you create a pipeline that performs the action that you need, you can schedule it to run periodically (hourly, daily, weekly etc.)."
资源:
https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq
听起来您想 运行 按计划自动启动您的 spark 作业。所以我觉得使用Oozie很适合你现在的场景,参考Azure官方教程Windows or Linux to know the concept about Oozie. Meanwhile, the tutorial Use time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs
介绍了如何通过time trigger来实现。作为参考,hortonworks 线程详细显示了 运行 从 HDP 上的 Oozie Workflow 执行 Spark 作业的步骤(Azure HDInsight 基于 HDP)。
希望对您有所帮助。
您可以使用 .Net SDK or Powershell 自动配置 HDInsight 实例。
我会按照说明使用 Livy 提交 Spark 作业 here
我想自动提交 Spark 作业 system/program。 当然,系统需要在提交 Spark 作业之前先配置 HDInsight。 此外,系统按计划提交 spark 作业(例如晚上 7 点提交作业 1,晚上 9 点提交作业 2)
实现这些目标的最佳方法是什么?
c.f) 我能做什么
- 使用 Powershell 配置 HDIsinght
- 使用 Livy 提交 Spark 作业
听起来 Azure 数据工厂可以满足你的需求。来自他们的网站:
"Data Factory allows you to create data-driven workflows to move data between both on-premises and cloud data stores as well as process/transform data using compute services such as Azure HDInsight and Azure Data Lake Analytics. After you create a pipeline that performs the action that you need, you can schedule it to run periodically (hourly, daily, weekly etc.)."
资源: https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq
听起来您想 运行 按计划自动启动您的 spark 作业。所以我觉得使用Oozie很适合你现在的场景,参考Azure官方教程Windows or Linux to know the concept about Oozie. Meanwhile, the tutorial Use time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs
介绍了如何通过time trigger来实现。作为参考,hortonworks 线程详细显示了 运行 从 HDP 上的 Oozie Workflow 执行 Spark 作业的步骤(Azure HDInsight 基于 HDP)。
希望对您有所帮助。
您可以使用 .Net SDK or Powershell 自动配置 HDInsight 实例。
我会按照说明使用 Livy 提交 Spark 作业 here