flink 集群重启时自动恢复作业

Automatic job resumption on flink cluster restart

我在一个独立的 flink 集群上有 运行 个作业,只有一个作业管理器,运行 在一个 docker 容器中。每当集群崩溃并重新启动时,我必须再次手动提交作业才能启动。有没有办法让 flink 在集群再次 运行 时自动恢复作业?

如果作业因为抛出异常而崩溃,作业管理器将自动重新启动它,只要 (1) 您有 checkpointing enabled (it's disabled by default because it requires some configuration), and (2) you haven't set a restart strategy 防止重新启动(默认重新启动策略很好)。如果独立集群中的任务管理器完全失败,您将需要启动另一个。

要配置作业管理器故障转移,请参阅 docs on high availability for standalone clusters