使用 databricks-connect 安装时在本地使用 Pyspark
Using Pyspark locally when installed using databricks-connect
我安装了 databricks-connect 6.6.0,它的 Spark 版本为 2.4.6。到目前为止,我一直在使用 databricks 集群,但我正在尝试切换到使用本地 spark 会话进行单元测试。
然而,每次我 运行 它,它仍然出现在集群 Spark UI 以及 xxxxxx:4040 上的本地 Spark UI 上。
我尝试使用 SparkConf()、SparkContext() 和 SQLContext() 启动,但它们都做同样的事情。我还设置了右边的SPARK_HOME、HADOOP_HOME、JAVA_HOME,分别下载了winutils.exe,这些目录的none都有空格。我也尝试过 运行 从控制台和终端使用 spark-submit 将其连接。
这是我试过的示例代码之一:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local").appName("name").getOrCreate()
inp = spark.createDataFrame([('Person1',12),('Person2',14)],['person','age'])
op = inp.toPandas()
我正在使用:
Windows10,databricks-connect 6.6.0,Spark 2.4.6,JDK1.8.0_265,Python3.7,PyCharm 社区 2020.1.1
我是否必须覆盖 default/global spark 会话才能启动本地会话?我该怎么做?
我可能遗漏了一些东西 - 代码本身 运行 没问题,这只是本地与集群的问题。
TIA
你不能 运行 他们并排。我建议有两个使用 Conda 的虚拟环境。一个用于 databricks-connect 一个用于 pyspark。然后根据需要在两者之间切换。
我安装了 databricks-connect 6.6.0,它的 Spark 版本为 2.4.6。到目前为止,我一直在使用 databricks 集群,但我正在尝试切换到使用本地 spark 会话进行单元测试。 然而,每次我 运行 它,它仍然出现在集群 Spark UI 以及 xxxxxx:4040 上的本地 Spark UI 上。
我尝试使用 SparkConf()、SparkContext() 和 SQLContext() 启动,但它们都做同样的事情。我还设置了右边的SPARK_HOME、HADOOP_HOME、JAVA_HOME,分别下载了winutils.exe,这些目录的none都有空格。我也尝试过 运行 从控制台和终端使用 spark-submit 将其连接。
这是我试过的示例代码之一:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local").appName("name").getOrCreate()
inp = spark.createDataFrame([('Person1',12),('Person2',14)],['person','age'])
op = inp.toPandas()
我正在使用: Windows10,databricks-connect 6.6.0,Spark 2.4.6,JDK1.8.0_265,Python3.7,PyCharm 社区 2020.1.1
我是否必须覆盖 default/global spark 会话才能启动本地会话?我该怎么做? 我可能遗漏了一些东西 - 代码本身 运行 没问题,这只是本地与集群的问题。
TIA
你不能 运行 他们并排。我建议有两个使用 Conda 的虚拟环境。一个用于 databricks-connect 一个用于 pyspark。然后根据需要在两者之间切换。