Kafka日志聚合与处理

Kafka log aggregation and processing

您好,我正在尝试将 Kafka 用作日志聚合器和过滤层,以便它们输入到 Splunk 中,例如。

Kafka 的输入端将是 Kafka S3 连接器和其他从 S3 和 Amazon Kinesis Data 获取日志的连接器streams.See此图片供参考:

但是我想知道的是在Kafka数据管道里面进行处理或者过滤是否有必要做Spark作业?或者可以只用一个简单的 Kafka 流应用程序来完成,如果我们必须为几个不同的日志做这个设计,那么什么是一个有效的解决方案来实现。我正在寻找一种解决方案,我们可以在不同的日志流之间进行复制,而无需每次都进行重大更改。

谢谢

Spark(或 Flink)本质上可以替代 Kafka Streams 和 Kafka Connect,用于转换主题和写入 S3。

如果您想直接写入 Splunk,那么有一个专门为此编写的 Kafka 连接器,您可以使用任何 Kafka 客户端在将数据写入下游之前消费+生产处理后的数据