Kafka日志聚合与处理

Kafka log aggregation and processing

您好，我正在尝试将 Kafka 用作日志聚合器和过滤层，以便它们输入到 Splunk 中，例如。

Kafka 的输入端将是 Kafka S3 连接器和其他从 S3 和 Amazon Kinesis Data 获取日志的连接器streams.See此图片供参考：

但是我想知道的是在Kafka数据管道里面进行处理或者过滤是否有必要做Spark作业？或者可以只用一个简单的 Kafka 流应用程序来完成，如果我们必须为几个不同的日志做这个设计，那么什么是一个有效的解决方案来实现。我正在寻找一种解决方案，我们可以在不同的日志流之间进行复制，而无需每次都进行重大更改。

谢谢

Spark（或 Flink）本质上可以替代 Kafka Streams 和 Kafka Connect，用于转换主题和写入 S3。

如果您想直接写入 Splunk，那么有一个专门为此编写的 Kafka 连接器，您可以使用任何 Kafka 客户端在将数据写入下游之前消费+生产处理后的数据

Kafka日志聚合与处理

Kafka log aggregation and processing

apache-kafka

apache-spark

apache-kafka-streams