flink 作业的最佳 heartbeat.timeout 配置

Optimal heartbeat.timeout configuration for flink jobs

我们应该如何决定 flink 作业的最佳 heartbeat.timeout 配置。我正在使用 flink 1.10.3 并且由于心跳超时异常导致我的服务失败。当前设置的默认值为 50 秒。

也许你可以修改conf/flink-conf.yaml,或者通过-D动态参数

可能对你有帮助 https://ci.apache.org/projects/flink/flink-docs-master/docs/deployment/cli/

在我的 flink 工作中,我尝试将 heartbeat.timeout 从 50 秒增加到 5 分钟,但它没有用,并且异常不断出现。 在我的案例中,心跳超时异常的原因是任务管理器在堆内存耗尽时崩溃。 所以我尝试将 taskmanager.memory.managed.fraction 从 0.4 更改为 0.05,这反过来又增加了堆内存。 现在,心跳失败的频率已经降低,管道也可以从失败中重新启动。