Confluent Kafka Connect HDFS Sink 连接器延迟

Confluent Kafka Connect HDFS Sink connector latency

我有一个包含 200 万条消息的 kafka 主题,我的刷新大小为 100000,默认分区为分布式模式,有 4 个工作人员,我能够看到数据在几秒钟内立即写入 HDFS(10 到15 秒)。

我看到创建了一个 +tmp 目录和文件夹,每次触发新连接器时都会创建主题。

kafka connect 的行为是每次写这么快还是它已经将数据存储在 HDFS 中并根据连接器属性将其移动到主题目录?

如果我想为此计算延迟,我该如何计算?

如果我停止并删除 /topics 和 /temp 中的主题目录并重新触发同一主题,它会再次从 Kafka 中提取数据还是会从 hdfs 中的某个位置获取数据作为备份?

需要澄清这是怎么回事happening.Please如果我的理解不正确请告诉我。

Is it the behavior of kafka connect to write it this fast every time or is it storing the data in HDFS already and moves it to the topic directory based on the connector properties?

两者都有。它是在内存中缓冲的 Kafka 消费者,并写入 HDFS 上的预写日志。 +tmp 文件夹包含临时文件,这些文件将 "compressed" 组合成更大的 HDFS 文件,并与 Kafka Consumer offset 提交一起移动到最终位置。

calculate the latency for this

您可以在您的 Brokers 和 Connect 实例上使用带有监控拦截器的控制中心。

否则,您可以在 CLI 中为连接器描述消费者组以查看消费者延迟。

if I stop and delete the topic directory in both /topics and /temp and retrigger the same topic will it again pull data from Kafka

直到特定版本的 HDFS 连接,。为了在任何其他 Kafka 消费者中从头开始重新启动,您必须删除或重置消费者组。

如果你删除了topic目录,HDFS中没有其他Connect引用的地方,所以没有备份