spark 是否知道在 kafka 中添加了新分区?
is spark aware of new partitions that gets added in kafka?
我们最近遇到了一个问题,一些 Kafka 分区丢失了,但作业继续没有失败。同时,添加了新的 kafka 分区。看起来我们的 Spark Streaming 作业没有重新启动,也没有从新分区接收任何数据,直到我们注意到计数上的差异。我们重新开始工作,一切都很好。所以我的问题是,spark-kafka streaming api 是否不时检查是否添加了新分区?是否有任何特殊设置可以启用它?
据我所知,添加新 topics/partitions 后,Spark 的 Kafka 消费者不会自动重新平衡其消费者组。
这是比较 Spark Streaming 与 Kafka Streams 时列出的好处之一,因为 Kafka Streams 将重新平衡
我们最近遇到了一个问题,一些 Kafka 分区丢失了,但作业继续没有失败。同时,添加了新的 kafka 分区。看起来我们的 Spark Streaming 作业没有重新启动,也没有从新分区接收任何数据,直到我们注意到计数上的差异。我们重新开始工作,一切都很好。所以我的问题是,spark-kafka streaming api 是否不时检查是否添加了新分区?是否有任何特殊设置可以启用它?
据我所知,添加新 topics/partitions 后,Spark 的 Kafka 消费者不会自动重新平衡其消费者组。
这是比较 Spark Streaming 与 Kafka Streams 时列出的好处之一,因为 Kafka Streams 将重新平衡