Apache-Flink的TaskManager如何实现容错(Recovery)?

How to achieve fault tolerance(Recovery) with TaskMangers of Apache-Flink?

JobManager 的恢复是使用 Zookeeper 实现的,但是如果 TaskManager 失败了怎么办?这个怎么恢复,JobManager会自动恢复TaskManager吗?

一般来说,JobManager 负责从 TaskManager 故障中恢复。如何完成取决于您的设置。

  • 如果你运行在 YARN 上进行 Flink,JobManager 会在意识到一个 TaskManager 已经死亡并重新分配任务时启动一个新的 TaskManager。
  • 如果你 运行 Flink 在集群上独立运行,你必须确保你有一个(或多个)备用 TaskManager(s) 运行ning。 JobManager 会将故障 TM 的任务分配给备用 TM。这也意味着您必须确保有足够的备用 TM 已启动并且 运行ning.