应用程序崩溃时的 Flink 任务管理器状态

Question

如果在处理事件时从 jar 应用程序向任务管理器抛出异常，会发生什么情况？

a) Flink Job Manager 会杀死现有的任务管理器并创建一个新的任务管理器？

b) 任务管理器本身使用保存在 RocksDB 中的本地状态从失败的执行和重启进程中恢复？

java.lang.IllegalArgumentException: "Application error-stack trace"

我怀疑是否每个可用的任务管理器都在处理相同类型的错误事件，因此它们都被杀死并且整个 flink 作业都停止了。

我注意到，如果出现某些应用程序错误，那么最终整个工作都会失败。

目前还没有弄清楚具体原因。

Answer 1

一般来说，Job中的异常应该不会导致整个任务管理器宕机。我们在这里谈论 "normal" 异常。在这种情况下，作业本身将失败，任务管理器将根据提供的重启策略尝试重启或不重启它。

显然，如果由于某种原因您的任务管理器将死机，例如由于超时或其他原因。如果您不使用一些资源管理器或编排工具（如 YARN 或 Kubernetes），它将不会自动重启。这种情况下的工作应该在有可用的插槽后开始。

至于您描述的作业本身是 "going down" 的行为，我假设作业只是进入 FAILED 状态。这是因为不同的重启策略对最大重试次数有不同的阈值，如果作业在指定的重启次数后无法工作，它将直接进入失败状态。

Flink Task Manager Status When Application Crashes