在 Python 代码中获取 Azure 数据块 Spark 的实例

Get instance of Azure data bricks Spark in Python code

我正在开发一个 python 包,它将被部署到 databricks 集群中。我们经常需要在 python 代码中引用 "spark" 和 "dbutils" 对象。

我们可以使用 "spark"(如 spark.sql())在 Notebook 中轻松访问这些对象。我们如何在包中的 python 代码中获取 spark 实例?

SparkSession.Builder.getOrCreate:

Gets an existing SparkSession or, if there is no existing one, creates a new one based on the options set in this builder.

This method first checks whether there is a valid global default SparkSession, and if yes, return that one. If no valid global default SparkSession exists, the method creates a new SparkSession and assigns the newly created SparkSession as the global default

因此,每当您需要 SparkSession 的实例并且不想将其作为参数传递时:

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()