Spark Streaming Context 中流的并行性
Parallelism of Streams in Spark Streaming Context
我有多个输入源 (~200) 进入 Kafka 主题 - 每个的数据相似,但每个都必须 运行 分开,因为模式不同 - 我们需要执行聚合对提要进行健康检查(因此我们不能以一种简单的方式将它们全部放入一个主题中,而不会在下游创建更多工作)。我已经创建了一个带有 spark 流上下文的 spark 应用程序,一切似乎都在工作,除了它只是按顺序 运行ning 流。每个流中都存在某些瓶颈,这使得效率非常低,我希望所有流同时 运行 - 这可能吗?我一直没能找到一个简单的方法来做到这一点。我已经看到了 concurrentJobs 参数,但它没有按预期工作。如果没有简单的技术解决方案,也欢迎任何设计建议。
谢谢
答案在这里:
https://spark.apache.org/docs/1.3.1/job-scheduling.html
使用 fairscheduler.xml 文件。
默认情况下它是 FIFO...只有在我明确写入文件后它才对我有用(由于某种原因无法以编程方式设置它)。
我有多个输入源 (~200) 进入 Kafka 主题 - 每个的数据相似,但每个都必须 运行 分开,因为模式不同 - 我们需要执行聚合对提要进行健康检查(因此我们不能以一种简单的方式将它们全部放入一个主题中,而不会在下游创建更多工作)。我已经创建了一个带有 spark 流上下文的 spark 应用程序,一切似乎都在工作,除了它只是按顺序 运行ning 流。每个流中都存在某些瓶颈,这使得效率非常低,我希望所有流同时 运行 - 这可能吗?我一直没能找到一个简单的方法来做到这一点。我已经看到了 concurrentJobs 参数,但它没有按预期工作。如果没有简单的技术解决方案,也欢迎任何设计建议。
谢谢
答案在这里: https://spark.apache.org/docs/1.3.1/job-scheduling.html 使用 fairscheduler.xml 文件。
默认情况下它是 FIFO...只有在我明确写入文件后它才对我有用(由于某种原因无法以编程方式设置它)。