我在哪里创建一个 spark 配置文件和 set.driver.memory 到 2gb?

where do I create a spark configuration file and set.driver.memory to 2gb?

我是 spark 的新手,总体来说 Linux 相对较新。我在本地 Ubuntu 客户端模式下 运行ning Spark。我有 16 GB 的内存。我在 link. 之后安装了 apache spark 我能够 运行 并处理大量数据。挑战在于以 csv 格式导出生成的数据帧。即使有 10 万行数据,我也会遇到各种内存问题。相比之下,我能够处理总计数百万行的分区 python 文件。

根据大量谷歌搜索,我认为问题出在我的 spark.driver.memory 上。我需要更改它,但由于我 运行ning 在客户端模式下,我应该在某些配置文件中更改它。如果我有一个现有的 Spark 配置文件,我该如何定位,或者我如何创建一个新配置文件并将 spark.driver.memory 设置为 2GB。

您可以更改

中所有会话的默认值
$SPARK_HOME/spark-defaults.conf

如果您没有找到 spark-defaults.conf,您应该有一个文件 spark-defaults.conf.template,只是 cp spark-defaults.conf.template spark-defaults.conf 并编辑它取消注释行:

# spark.driver.memory              5g

或者,您可以在会话生成器中使用 .config 为当前会话设置值:

spark = SparkSession.builder \
       .master("local[*]") \
       .appName("myApp") \
       .config("spark.driver.memory", "5g") \
       .getOrCreate()

(也许您可能还想增加 spark.executor.memory

另请参阅 my other answer 类似问题。