从火花流写入卡夫卡最简单的方法是什么
What is the most simple way to write to kafka from spark stream
我想从 spark 流数据写入 kafka。
我知道我可以使用 KafkaUtils 从 kafka 读取。
但是,KafkaUtils 不提供 API 写入 kafka。
我检查了 and sample code。
上面的示例代码是不是最简单的写入kafka的方式?
如果我采用像上面示例的方式,我必须创建许多 类...
你知道更简单的方法或库来帮助写入kafka吗?
看看here:
基本上这个博客 post 总结了您提供的 link 中不同变体的可能性。
如果我们直接看你的任务,我们可以做出几个假设:
- 您的输出数据被分成几个分区,这些分区可能(并且经常会)驻留在不同的机器上
- 您想使用标准 Kafka Producer 将消息发送到 Kafka API
- 您不希望在实际发送到 Kafka 之前在机器之间传递数据
鉴于这些假设,您的解决方案集非常有限:您是否必须为每个分区创建一个新的 Kafka 生产者并使用它来发送该分区的所有记录,或者您可以将此逻辑包装在某种形式中Factory / Sink 但基本操作将保持不变:您仍然会为每个分区请求一个生产者对象并使用它来发送分区记录。
我建议您继续使用所提供的 link 中的示例之一,代码非常短,您将找到的任何库很可能在幕后做完全相同的事情。
我想从 spark 流数据写入 kafka。 我知道我可以使用 KafkaUtils 从 kafka 读取。 但是,KafkaUtils 不提供 API 写入 kafka。
我检查了
上面的示例代码是不是最简单的写入kafka的方式? 如果我采用像上面示例的方式,我必须创建许多 类...
你知道更简单的方法或库来帮助写入kafka吗?
看看here:
基本上这个博客 post 总结了您提供的 link 中不同变体的可能性。
如果我们直接看你的任务,我们可以做出几个假设:
- 您的输出数据被分成几个分区,这些分区可能(并且经常会)驻留在不同的机器上
- 您想使用标准 Kafka Producer 将消息发送到 Kafka API
- 您不希望在实际发送到 Kafka 之前在机器之间传递数据
鉴于这些假设,您的解决方案集非常有限:您是否必须为每个分区创建一个新的 Kafka 生产者并使用它来发送该分区的所有记录,或者您可以将此逻辑包装在某种形式中Factory / Sink 但基本操作将保持不变:您仍然会为每个分区请求一个生产者对象并使用它来发送分区记录。
我建议您继续使用所提供的 link 中的示例之一,代码非常短,您将找到的任何库很可能在幕后做完全相同的事情。