如何在 HD Insights (YARN) 上永久进行 Spark Streaming 作业 运行?
How to make spark streaming job run perpetually on HD Insights (YARN)?
我正在使用 IntelliJ 在 HD Insights 集群(基于 YARN)中开发一个 spark 应用程序 运行ning。目前,我直接从 IntelliJ 通过 Azure HD Insights 插件提交作业。这反过来又使用 Livy API 远程提交作业。
当我完成代码开发后,我希望流式传输作业永远 运行。目前,如果作业失败五次,程序将停止并且不会自行重启。有什么办法可以改变这种行为吗?或者大多数人用什么方案让spark失败后重启?
Yarn Spark 作业的重启由 Yarn 设置控制。因此,您需要增加 yarn 中的 spark 应用程序(yarn 应用程序主控)的重启次数。我相信它是:yarn.resourcemanager.am.max-attempts
。
在 HDInsight 中转到 Ambari UI 并在 Yarn -> Config -> Advanced Yarn-site 中更改此设置。
为了提交生产作业,您可以直接使用 livy API,如下所述:https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-apache-spark-eventhub-streaming#run-the-application-remotely-on-a-spark-cluster-using-livy
我正在使用 IntelliJ 在 HD Insights 集群(基于 YARN)中开发一个 spark 应用程序 运行ning。目前,我直接从 IntelliJ 通过 Azure HD Insights 插件提交作业。这反过来又使用 Livy API 远程提交作业。
当我完成代码开发后,我希望流式传输作业永远 运行。目前,如果作业失败五次,程序将停止并且不会自行重启。有什么办法可以改变这种行为吗?或者大多数人用什么方案让spark失败后重启?
Yarn Spark 作业的重启由 Yarn 设置控制。因此,您需要增加 yarn 中的 spark 应用程序(yarn 应用程序主控)的重启次数。我相信它是:yarn.resourcemanager.am.max-attempts
。
在 HDInsight 中转到 Ambari UI 并在 Yarn -> Config -> Advanced Yarn-site 中更改此设置。
为了提交生产作业,您可以直接使用 livy API,如下所述:https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-apache-spark-eventhub-streaming#run-the-application-remotely-on-a-spark-cluster-using-livy