Apache Flink 1.3.2 与 Kafka 1.1.0 的连接问题

Apache Flink 1.3.2 connectivity issue with Kafka 1.1.0

我使用的是 Apache Flink 1.3.2 集群。我们正在使用 Kafka 消息,自从将代理升级到 1.1.0(从 0.10.2)以来,我们经常在日志中注意到这个错误:

 ERROR o.a.flink.streaming.connectors.kafka.FlinkKafkaConsumerBase  - Async Kafka commit failed.
org.apache.kafka.clients.consumer.RetriableCommitFailedException: Offset commit failed with a retriable exception. You should retry committing offsets.
Caused by: org.apache.kafka.common.errors.DisconnectException: null

因此,有时我们会在处理过程中遇到丢失事件的情况。我们在作业中使用 FlinkKafkaConsumer010。

检查点已启用(间隔 10 秒,超时 1 分钟,检查点之间的最短暂停时间 5 秒,最大并发检查点数 1。平均 E2E 持续时间低于 1 秒,甚至不到半秒。)相同的设置是与我们没有此异常的 Kafka 0.10.2 一起使用。

更新:我们已经重新安装了 Kafka,现在我们收到一条警告消息,但仍然没有读取任何事件

WARN  o.a.flink.streaming.connectors.kafka.internal.Kafka09Fetcher  - Committing offsets to Kafka takes longer than the checkpoint interval. Skipping commit of previous offsets because newer complete checkpoint offsets are available. This does not compromise Flink's checkpoint integrity.

原来这是由我们在 AWS 中遇到的一些连接问题引起的。该框架适用于 Kafka 1.1