读取不断更新到 kafka 主题的远程文件

Reading a remote file which is updating continuously to a kafka topic

我是 Apache Kafka 的新手。我有一个服务器 [10.33.41.20],我在其中收到日志文件 [in /tmp/LsCrak.log],每秒更新一次。我在另一个虚拟机 server2 [10.33.41.22] 中安装了 Kafka 2.4.0。 我应该使用如下所示的 kafka 控制台制作人。但是我怎样才能得到远程文件,这样我就不会丢失任何数据?

kafka-console-producer.sh  --broker-list  kftest1:9092,kftest2:9092,kftest3:9092 --topic kafka-LsCrak-topic &

recieve log file ... which gets updated every second. I am supposed to use the kafka console producer

不要用它来读取文件;它不跟踪进度。也就是说,运行 console producer 再次为同一个文件会造成重复记录。

相反,使用 Fluentd、Filebeat、Logstash、Kafka Connect Spooldir 连接器等实际支持拖尾文件和输出到 Kafka 的工具。