在 Python 代码中获取 Azure 数据块 Spark 的实例
Get instance of Azure data bricks Spark in Python code
我正在开发一个 python 包,它将被部署到 databricks 集群中。我们经常需要在 python 代码中引用 "spark" 和 "dbutils" 对象。
我们可以使用 "spark"(如 spark.sql())在 Notebook 中轻松访问这些对象。我们如何在包中的 python 代码中获取 spark 实例?
SparkSession.Builder.getOrCreate
:
Gets an existing SparkSession or, if there is no existing one, creates a new one based on the options set in this builder.
This method first checks whether there is a valid global default SparkSession, and if yes, return that one. If no valid global default SparkSession exists, the method creates a new SparkSession and assigns the newly created SparkSession as the global default
因此,每当您需要 SparkSession
的实例并且不想将其作为参数传递时:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
我正在开发一个 python 包,它将被部署到 databricks 集群中。我们经常需要在 python 代码中引用 "spark" 和 "dbutils" 对象。
我们可以使用 "spark"(如 spark.sql())在 Notebook 中轻松访问这些对象。我们如何在包中的 python 代码中获取 spark 实例?
SparkSession.Builder.getOrCreate
:
Gets an existing SparkSession or, if there is no existing one, creates a new one based on the options set in this builder.
This method first checks whether there is a valid global default SparkSession, and if yes, return that one. If no valid global default SparkSession exists, the method creates a new SparkSession and assigns the newly created SparkSession as the global default
因此,每当您需要 SparkSession
的实例并且不想将其作为参数传递时:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()