如何在微软 azure 的 jupiter notebook 中为 spark 集群安排 pyspark 作业?

How to schedule a pyspark job in jupiter notebook in microsoft azure for a spark cluster?

我是 Spark 的新手。我通过安装在 HDInsight 集群中的 jupyter notebook interactive UI 开发了一个 pyspark 脚本。 A 现在我 运行 来自 jupyter 本身的代码,但现在我必须 自动化脚本 。我尝试使用 Azure Datafactory,但无法从那里找到 运行 pyspark 脚本的方法。还尝试使用 oozie 但无法弄清楚如何使用 it.I 已尝试通过保存笔记本并重新打开它和 运行 所有单元格但它就像手册方式。

请帮助我在 Microsoft Azure 中安排一个 pyspark 作业。

我搜索了 discussion 关于 运行 计划作业(如 crontab 和 Apache Spark for pyspark)的最佳实践,您可能会查看。

如果没有oozie,我有一个简单的想法就是将jupyter notebook保存到本地并编写一个shell脚本通过Livy将python脚本提交到HDInsight Spark linux crontab 作为调度程序。作为参考,您可以参考下面的内容。

  1. IPython Notebook save location
  2. How can I configure pyspark on livy to use anaconda python instead of the default one
  3. Submit Spark jobs remotely to an Apache Spark cluster on HDInsight using Livy

希望对您有所帮助。