Spark连续处理模式不读取所有kafka主题分区

Spark continuous processing mode does not read all kafka topic partition

我正在结构化流中试验 Spark 的连续处理模式,我正在读取一个具有 2 个分区的 Kafka 主题,而 Spark 应用程序只有一个执行程序和一个核心。

该应用程序很简单,它只是从第一个主题读取并在第二个主题上发布。问题是我的控制台消费者从第二个主题读取它只看到来自第一个主题的一个分区的消息。这意味着我的 Spark 应用程序只读取来自主题的一个分区的消息。

如何让我的 Spark 应用程序读取主题的两个分区?

备注

我问这个问题的对象可能 运行 遇到与我相同的问题

我在 caveats section

的 Spark Structured Streaming 文档中找到了问题的答案

基本上,在连续处理模式下,spark 会启动从主题的一个分区读取的长 运行ning 任务,因此每个核心只能执行一个任务 运行,spark 应用程序需要与其读取的 kafka 主题分区一样多的核心。