大容量应用程序中的 SparkContext 使用

SparkContext usage in high-volume application

我正在尝试了解 "Cost of Spark Context",它们是否很重并且在单个 JVM 中创建 500 个 Spark-Context 是一个糟糕的设计。

在一家保险公司的客户服务应用程序的上下文中,有 500 名代表正在使用该应用程序,如果有一个简单的休息 API 将获取保单编号并在 HDFS 中进行查找或使用 Apache Spark 的 Cassandra。使用

是否有意义
  1. 每个请求一个 Spark-Context
  2. 所有请求的一个 Singleton-Spark 上下文
  3. 创建并使用 Spark-Contexts 池

感谢您的回复

Spark 上下文包含您的集群、appname 和 运行 核心的访问信息以及一些应用程序级别的属性。 因此,One singleton Spark context 将是大规模应用程序中的终极选择。

查看Spark Job server了解更多详情