对多个作业使用相同的 JavaSparkContext 以防止在 spark 驱动程序初始化时使用时间

Question

我正尝试在 Google Dataproc 上运行 Spark 作业。但是，正如通常所见，Spark Driver 的初始化占用了大量的执行时间。我想知道使用相同的 JavaSparkContext 实例在 Google Dataproc 上运行多个 Spark 作业的好方法是什么，这样我就不会因为 spark 驱动程序初始化而失去每项作业的性能。目前，我的代码看起来像这样：

public static void main(String[] args) {

    SparkConf configuration = new SparkConf().setAppName("App");
    final JavaSparkContext context = new JavaSparkContext(configuration);

    // Do stuff

    // Stop connection to Java Spark
    context.stop();
}

Answer 1

Dataproc 目前基于 YARN 进行资源分配，因为这使我们能够为基于 Hadoop 的作业（Hive、Pig、Hadoop MR）和 Spark 作业提供单一接口。这样做的缺点是，当您启动一个新的 (Java)SparkContext 时，分配 Spark AppMaster 和 worker 会产生开销。我认为 Dataproc 没有适合您的内置答案，而且我认为任何易于实现的解决方案都意味着您将不再使用 Dataproc 作业 API 来提交单个作业。

虽然 Dataproc 本身目前无法通过作业 API 提供低延迟 Spark 作业，但您可以运行 Dataproc 集群并将 Spark 作业服务器指向 Dataproc 集群。您可以在 github 此处 https://github.com/spark-jobserver/spark-jobserver 上找到有关作业服务器的更多信息。使用作业服务器时，您应该能够创建一个 Spark 上下文，然后为以后的作业重用该上下文。您还需要确保在 yarn-client 模式下将作业服务器配置为运行。这意味着您创建的每个上下文仍会产生 YARN 分配的启动成本，但每个上下文只会产生一次。

如果您的 REST 服务器运行处于无法进行任意网络调用的环境中（例如，AppEngine），您可能想要研究一个将消息发布到云 pubsub 然后有一个组件的系统运行在 GCE 中订阅消息，然后代表您的 AppEngine 应用程序将作业提交到 Spark 作业服务器。

对多个作业使用相同的 JavaSparkContext 以防止在 spark 驱动程序初始化时使用时间

Using the same JavaSparkContext for multiple jobs to prevent using time on spark driver initialization

hadoop

hadoop-yarn

apache-spark

google-cloud-dataproc