FlinkKafkaConsumer在HiBench中的容错
Fault Tolerance of FlinkKafkaConsumer in HiBench
我正在运行做一些实验,测试Apache Flink的容错能力。我目前正在使用 HiBench 框架和为 Flink 实现的 WordCount 微型基准测试。
我注意到,如果我在执行期间终止 TaskManager,Flink 运算符的状态会在自动 "redeploy" 之后恢复,但是从基准测试发送到 Kafka 的许多(全部?)元组会丢失(存储在 Kafka 中,但在 Flink 中未收到)。
似乎在恢复后,FlinkKafkaConsumer
(基准测试使用 FlinkKafkaConsumer08)代替从失败前读取的最后一个偏移量开始读取,从最新的可用偏移量开始读取(丢失所有发送的事件)在失败期间)。
有什么建议吗?
谢谢!
问题出在 HiBench 框架本身和最新版本的 Flink 上。
为了在 Kafka 消费者中使用 "setStartFromGroupOffsets()" 方法,我不得不更新基准测试中的 Flink 版本。
我正在运行做一些实验,测试Apache Flink的容错能力。我目前正在使用 HiBench 框架和为 Flink 实现的 WordCount 微型基准测试。
我注意到,如果我在执行期间终止 TaskManager,Flink 运算符的状态会在自动 "redeploy" 之后恢复,但是从基准测试发送到 Kafka 的许多(全部?)元组会丢失(存储在 Kafka 中,但在 Flink 中未收到)。
似乎在恢复后,FlinkKafkaConsumer
(基准测试使用 FlinkKafkaConsumer08)代替从失败前读取的最后一个偏移量开始读取,从最新的可用偏移量开始读取(丢失所有发送的事件)在失败期间)。
有什么建议吗?
谢谢!
问题出在 HiBench 框架本身和最新版本的 Flink 上。
为了在 Kafka 消费者中使用 "setStartFromGroupOffsets()" 方法,我不得不更新基准测试中的 Flink 版本。