Spark Streaming Context 中流的并行性

Parallelism of Streams in Spark Streaming Context

我有多个输入源 (~200) 进入 Kafka 主题 - 每个的数据相似，但每个都必须运行分开，因为模式不同 - 我们需要执行聚合对提要进行健康检查（因此我们不能以一种简单的方式将它们全部放入一个主题中，而不会在下游创建更多工作）。我已经创建了一个带有 spark 流上下文的 spark 应用程序，一切似乎都在工作，除了它只是按顺序运行ning 流。每个流中都存在某些瓶颈，这使得效率非常低，我希望所有流同时运行 - 这可能吗？我一直没能找到一个简单的方法来做到这一点。我已经看到了 concurrentJobs 参数，但它没有按预期工作。如果没有简单的技术解决方案，也欢迎任何设计建议。

谢谢

答案在这里： https://spark.apache.org/docs/1.3.1/job-scheduling.html 使用 fairscheduler.xml 文件。

默认情况下它是 FIFO...只有在我明确写入文件后它才对我有用（由于某种原因无法以编程方式设置它）。

Spark Streaming Context 中流的并行性

Parallelism of Streams in Spark Streaming Context

apache-kafka

apache-spark

spark-streaming